Resolver matemáticas “de examen” y resolver matemáticas “de investigación” se parecen tanto como armar un mueble siguiendo instrucciones y diseñar el mueble desde cero. Lo segundo exige entender el material, anticipar fallos y justificar cada paso con paciencia. Esa es la idea detrás de FrontierMath, un conjunto de retos con problemas especialmente difíciles que Epoch AI usa para medir hasta qué punto un modelo puede sostener razonamiento matemático de alto nivel.
El foco de la noticia es que OpenAI y su GPT-5.2 Pro han logrado un avance notable en esa prueba, precisamente en el tramo más duro, llamado Tier 4. No es un “puzzle” de internet ni una colección de ejercicios repetidos: se trata de problemas que buscan detectar comprensión real, no simple destreza para imitar soluciones vistas antes. Epoch AI incluso explica que, por problemas de tiempos de espera con su infraestructura, evaluó a GPT-5.2 Pro de forma manual desde la interfaz de ChatGPT, y aun así documentó los resultados con detalle.
El salto de GPT-5.2 Pro: cifras y matices
Según el reporte de Epoch AI, GPT-5.2 Pro alcanzó un 31% de aciertos en FrontierMath Tier 4, lo que equivale a 15 problemas resueltos de un total de 48. El mejor registro anterior era 19%, así que el salto no es marginal: es de esos que cambian la conversación sobre “hasta dónde llega” un modelo cuando se le exigen demostraciones y no solo respuestas finales.
Hay otro dato que ayuda a ponerlo en contexto. Antes de esta evaluación, solo 13 problemas de ese Tier 4 habían sido resueltos por cualquier modelo; GPT-5.2 Pro resolvió 11 de esos 13 y sumó 4 que nadie había logrado. Es decir, no solo mejoró en lo ya “conquistado” por la IA, también abrió camino en terreno virgen.
Epoch AI también menciona un control importante para evitar sospechas de entrenamiento “con las respuestas”. OpenAI tendría acceso exclusivo a 28 problemas y sus soluciones, mientras Epoch retiene otros 20. En esta pasada, GPT-5.2 Pro resolvió 10 del conjunto retenido por Epoch y 5 del otro, lo que el instituto interpreta como ausencia de señales de sobreajuste a las soluciones conocidas.
Cuando la matemática se pone seria: topología y teoría de números
Las reacciones de matemáticos involucrados ayudan a aterrizar qué significa “lo resolvió”. Joel Hass, profesor de matemáticas en la University of California, Davis, aportó un problema de topología y geometría; según recogió Epoch AI, le llamó la atención que el modelo identificara la geometría específica de una superficie definida por un polinomio y encadenara un razonamiento correcto. En términos cotidianos: no fue solo “calcular”, fue mirar el mapa y entender el relieve antes de elegir la ruta.
Ken Ono, teórico de números en la University of Virginia, ofreció otra perspectiva igual de valiosa: reconoció que el modelo captó el truco teórico esencial y ejecutó los cálculos necesarios, aunque lo penalizó por falta de rigor en los detalles, con una nota simbólica de 6 sobre 10 si se tratara de un doctorando. Esa crítica es clave porque ilumina el punto débil típico: una IA puede encontrar el camino correcto y aun así dejar “saltos” sin justificar, como quien cuenta una receta y omite tiempos de cocción porque “ya se entiende”.
El propio reporte de Epoch AI menciona otros casos revisados por autores de problemas, con elogios y observaciones sobre atajos numéricos no previstos por el diseñador del reto. Esto no invalida el acierto, pero sí recuerda que, en matemáticas, el “cómo” importa tanto como el “qué”.
Por qué a las IA se les atragantan los números
Durante años, el contraste ha sido llamativo: modelos muy buenos escribiendo, resumiendo o programando, pero capaces de equivocarse en aritmética simple o de inventar pasos intermedios con mucha seguridad. El artículo de Computerworld recoge dos explicaciones habituales en el debate: una, que los sistemas no reconocen bien sus límites; otra, que su entrenamiento está centrado en lenguaje y no en números, lo que provoca tropiezos cuando la tarea exige precisión formal.
FrontierMath es interesante porque pone a prueba algo más delicado que “operar bien”: exige sostener una cadena de inferencias, elegir herramientas matemáticas apropiadas y no perderse en el bosque de casos especiales. Es un poco como seguir un rastro en una montaña con niebla: no basta con caminar, hay que justificar por qué ese sendero te lleva al refugio y no a un barranco.
El avance de GPT-5.2 Pro sugiere una mejora real en ese autocontrol del razonamiento, aunque no lo convierte automáticamente en un demostrador impecable. Que un matemático humano destaque la falta de detalles indica que el riesgo de “saltarse” pasos sigue presente, solo que ahora ocurre a un nivel más alto, en problemas donde antes el modelo ni siquiera llegaba cerca.
Qué significa para la ciencia, la empresa y el aula
Cuando un modelo mejora en matemáticas avanzadas, las implicaciones van más allá de sacar buena nota en un benchmark. En investigación, un asistente capaz de proponer enfoques plausibles, detectar geometrías relevantes o recordar trucos teóricos puede ahorrar horas de exploración, igual que un buen GPS no conduce por ti, pero evita desvíos absurdos. En industria, esto puede traducirse en mejor apoyo para optimización, verificación de propiedades o revisión de derivaciones en áreas como finanzas cuantitativas, ingeniería o logística, siempre que haya validación humana.
En educación, el avance también complica el panorama. Si una IA es capaz de resolver problemas que antes estaban fuera de su alcance, la evaluación basada solo en el resultado final pierde valor. El énfasis tiende a moverse hacia el proceso: pedir que el estudiante explique decisiones, compare métodos, identifique supuestos y revise su propio trabajo. La observación de Ono sobre el rigor encaja con esta idea: tener la intuición correcta es valioso, pero aprender a escribir una prueba completa sigue siendo el músculo que se entrena.
El punto crítico: rigor, verificación y confianza
El dato más seductor del informe es el 31%, pero el dato más práctico es la conversación sobre rigor. En matemáticas formales, un paso no justificado no es un detalle estético: puede esconder un error. Por eso, incluso cuando un modelo acierta, conviene tratar su solución como un borrador inteligente, no como un veredicto. Epoch AI cuenta que detectó problemas de evaluación y ajustó puntuaciones en su “hub”, lo que también recuerda que medir estas capacidades es difícil: no todo es blanco o negro.
Lo razonable, si se usa un modelo como GPT-5.2 Pro para tareas matemáticas serias, es combinarlo con hábitos de seguridad: pedirle que explicite supuestos, que proponga una verificación alternativa, que intente encontrar contraejemplos, o que traduzca el argumento a un esquema formal más fácil de revisar. Es parecido a usar una calculadora científica: acelera, pero no reemplaza el criterio cuando el problema es delicado.
GPT-5.2 Pro no “resuelve” la matemática como quien cierra un asunto; empieza a participar en ella con señales más claras de comprensión en escenarios exigentes. Eso ya es un cambio importante, aunque siga necesitando algo que los buenos matemáticos llevan de serie: el respeto por el detalle.
