Resolver matemáticas “de examen” y resolver matemáticas “de investigación” se parecen tanto como armar un mueble siguiendo instrucciones y diseñar el mueble desde cero. Lo segundo exige entender el material, anticipar fallos y justificar cada paso con paciencia. Esa es la idea detrás de FrontierMath, un conjunto de retos con problemas especialmente difíciles que Epoch AI usa para medir hasta qué punto un modelo puede sostener razonamiento matemático de alto nivel.
El foco de la noticia es que OpenAI y su GPT-5.2 Pro han logrado un avance notable en esa prueba, precisamente en el tramo más duro, llamado Tier 4. No es un “puzzle” de internet ni una colección de ejercicios repetidos: se trata de problemas que buscan detectar comprensión real, no simple destreza para imitar soluciones vistas antes. Epoch AI incluso explica que, por problemas de tiempos de espera con su infraestructura, evaluó a GPT-5.2 Pro de forma manual desde la interfaz de ChatGPT, y aun así documentó los resultados con detalle. Continúa leyendo «GPT-5.2 Pro mejora en matemáticas: lo que revela FrontierMath y por qué no es magia»