GPT-5.4 Pro y el “atajo” matemático: cuando la IA gana por memoria, búsqueda y contexto

La conversación sobre modelos de lenguaje y matemáticas suele moverse entre dos extremos: o “solo predicen texto”, o “ya razonan como un estudiante brillante”. La noticia reciente se sitúa justo en el punto incómodo del medio. Según contó Computerworld, y apoyándose en una publicación de Epoch AI, GPT-5.4 Pro logró resolver un problema de máxima dificultad dentro de un conjunto de retos académicos, uno que hasta ese momento ningún otro modelo había superado.

El detalle que vuelve esto interesante no es únicamente el acierto, sino el “cómo”. En el análisis preliminar, Epoch AI sugiere que el modelo localizó un preprint de 2011 que permitía recortar gran parte del trabajo esperado, y que el propio autor del problema no conocía ese documento. Es como si a alguien le pidieran demostrar un teorema en una pizarra y, antes de empezar, sacara del bolsillo una fotocopia olvidada de una demostración publicada hace años en un repositorio poco transitado. El resultado final es correcto, pero la historia cambia: no estamos viendo solo capacidad de deducción desde cero, sino una mezcla sofisticada de búsqueda, memoria y recombinación. Continúa leyendo «GPT-5.4 Pro y el “atajo” matemático: cuando la IA gana por memoria, búsqueda y contexto»

GPT-5.2 Pro mejora en matemáticas: lo que revela FrontierMath y por qué no es magia

Resolver matemáticas “de examen” y resolver matemáticas “de investigación” se parecen tanto como armar un mueble siguiendo instrucciones y diseñar el mueble desde cero. Lo segundo exige entender el material, anticipar fallos y justificar cada paso con paciencia. Esa es la idea detrás de FrontierMath, un conjunto de retos con problemas especialmente difíciles que Epoch AI usa para medir hasta qué punto un modelo puede sostener razonamiento matemático de alto nivel.

El foco de la noticia es que OpenAI y su GPT-5.2 Pro han logrado un avance notable en esa prueba, precisamente en el tramo más duro, llamado Tier 4. No es un “puzzle” de internet ni una colección de ejercicios repetidos: se trata de problemas que buscan detectar comprensión real, no simple destreza para imitar soluciones vistas antes. Epoch AI incluso explica que, por problemas de tiempos de espera con su infraestructura, evaluó a GPT-5.2 Pro de forma manual desde la interfaz de ChatGPT, y aun así documentó los resultados con detalle. Continúa leyendo «GPT-5.2 Pro mejora en matemáticas: lo que revela FrontierMath y por qué no es magia»

OpenAI o3: ¿Qué significa que su IA no cumpliera con los resultados prometidos?

Cuando una empresa promete un avance importante en inteligencia artificial, el mundo tecnológico presta atención. Y si esa empresa es OpenAI, la creadora de modelos como ChatGPT y GPT-4, las expectativas se multiplican. A finales de 2024, OpenAI presentó su nuevo modelo de lenguaje, o3, asegurando que había superado con creces los retos matemáticos del exigente test FrontierMath. Sin embargo, meses después, la versión pública del modelo mostró un rendimiento bastante inferior al anunciado. ¿Qué ocurrió realmente? ¿Fue un error de cálculo, una estrategia comercial o una diferencia técnica esperada? Continúa leyendo «OpenAI o3: ¿Qué significa que su IA no cumpliera con los resultados prometidos?»