GPT-5.2 Pro mejora en matemáticas: lo que revela FrontierMath y por qué no es magia

Resolver matemáticas “de examen” y resolver matemáticas “de investigación” se parecen tanto como armar un mueble siguiendo instrucciones y diseñar el mueble desde cero. Lo segundo exige entender el material, anticipar fallos y justificar cada paso con paciencia. Esa es la idea detrás de FrontierMath, un conjunto de retos con problemas especialmente difíciles que Epoch AI usa para medir hasta qué punto un modelo puede sostener razonamiento matemático de alto nivel.

El foco de la noticia es que OpenAI y su GPT-5.2 Pro han logrado un avance notable en esa prueba, precisamente en el tramo más duro, llamado Tier 4. No es un “puzzle” de internet ni una colección de ejercicios repetidos: se trata de problemas que buscan detectar comprensión real, no simple destreza para imitar soluciones vistas antes. Epoch AI incluso explica que, por problemas de tiempos de espera con su infraestructura, evaluó a GPT-5.2 Pro de forma manual desde la interfaz de ChatGPT, y aun así documentó los resultados con detalle. Continúa leyendo «GPT-5.2 Pro mejora en matemáticas: lo que revela FrontierMath y por qué no es magia»

OpenAI o3: ¿Qué significa que su IA no cumpliera con los resultados prometidos?

Cuando una empresa promete un avance importante en inteligencia artificial, el mundo tecnológico presta atención. Y si esa empresa es OpenAI, la creadora de modelos como ChatGPT y GPT-4, las expectativas se multiplican. A finales de 2024, OpenAI presentó su nuevo modelo de lenguaje, o3, asegurando que había superado con creces los retos matemáticos del exigente test FrontierMath. Sin embargo, meses después, la versión pública del modelo mostró un rendimiento bastante inferior al anunciado. ¿Qué ocurrió realmente? ¿Fue un error de cálculo, una estrategia comercial o una diferencia técnica esperada? Continúa leyendo «OpenAI o3: ¿Qué significa que su IA no cumpliera con los resultados prometidos?»