Cuando una empresa promete un avance importante en inteligencia artificial, el mundo tecnológico presta atención. Y si esa empresa es OpenAI, la creadora de modelos como ChatGPT y GPT-4, las expectativas se multiplican. A finales de 2024, OpenAI presentó su nuevo modelo de lenguaje, o3, asegurando que había superado con creces los retos matemáticos del exigente test FrontierMath. Sin embargo, meses después, la versión pública del modelo mostró un rendimiento bastante inferior al anunciado. ¿Qué ocurrió realmente? ¿Fue un error de cálculo, una estrategia comercial o una diferencia técnica esperada?
Vamos a desmenuzarlo.
¿Qué es el test FrontierMath?
Antes de entrar en detalles, es importante entender qué es FrontierMath. Este test fue diseñado por más de 70 matemáticos con el objetivo de evaluar el razonamiento lógico y matemático profundo de modelos de IA. Lo interesante de esta prueba es que sus preguntas son totalmente nuevas y confidenciales. No están en internet ni en bases de datos de entrenamiento, lo que la hace especialmente efectiva para medir la capacidad real de comprensión y razonamiento de un modelo.
Imagina que un estudiante se enfrenta a un examen sin haber visto jamás ejemplos similares. Así funciona FrontierMath para la IA.
Hasta ahora, ningún modelo había logrado superar el 9% de aciertos en este test en un solo intento. Por eso llamó tanto la atención cuando OpenAI anunció que su modelo o3 había alcanzado un 25% de aciertos, algo nunca antes visto.
El lanzamiento y la sorpresa posterior
En diciembre de 2024, durante una transmisión en directo, OpenAI presentó o3 destacando su mejora en razonamiento complejo. Para demostrarlo, mencionaron los resultados en diferentes pruebas, incluyendo FrontierMath. Según Mark Chen, jefe de investigación de OpenAI, o3 había marcado un récord histórico con un 25% de aciertos, una cifra que duplicaba al anterior mejor resultado.
El problema vino cuando, meses después, se lanzó la versión comercial del modelo y Epoch AI —la empresa detrás de FrontierMath— la puso a prueba. El resultado fue muy diferente: solo un 10% de aciertos.
Aunque sigue siendo la mejor puntuación registrada públicamente, es menos de la mitad de lo que OpenAI aseguró inicialmente. Esto generó confusión, debate en redes sociales y una ola de críticas sobre la transparencia de los benchmarks en el desarrollo de inteligencia artificial.
¿Fue un engaño o un malentendido?
La discrepancia llevó a muchas personas a preguntarse si OpenAI infló sus resultados de forma intencional. Sin embargo, los hechos apuntan a una explicación más técnica que maliciosa.
Según explicó el equipo de ARC Prize —otra organización que evalúa la inteligencia general de las IA—, el modelo o3 que se lanzó al público no es exactamente el mismo que se usó para los tests internos en diciembre. Técnicamente, ambas versiones pertenecen a la misma arquitectura, pero difieren en su “nivel de cómputo”, es decir, la potencia de procesamiento utilizada.
En otras palabras, OpenAI podría haber usado una versión más robusta de o3, con recursos computacionales significativamente mayores, para alcanzar ese 25%. Posteriormente, al lanzar la versión comercial, probablemente ajustaron el modelo para hacerlo más ligero y económico en consumo de energía y cómputo, sacrificando parte de su rendimiento en el proceso.
Este tipo de práctica no es infrecuente. Es como presentar un coche deportivo en una feria que alcanza los 300 km/h, pero vender al público una versión con motor limitado a 180 km/h para hacerlo más accesible y eficiente.
¿Qué significa esto para la industria?
Este episodio ha reavivado un debate crucial: ¿son fiables los benchmarks que se anuncian en los lanzamientos de modelos de IA?
Los resultados de pruebas como FrontierMath o ARC-AGI se han convertido en cartas de presentación para las empresas. Sin embargo, cuando no se aclara qué versión del modelo se utilizó, qué recursos computacionales tenía o si el modelo final es idéntico al probado, la comparación pierde valor.
Además, el hecho de que la comunidad no pueda verificar los resultados en el momento del anuncio, por falta de acceso a los modelos, hace que la transparencia sea aún más importante.
Por su parte, OpenAI no ha negado la diferencia entre versiones y ha prometido colaborar con entidades como ARC Prize para que las nuevas versiones de sus modelos sean reevaluadas públicamente.
¿Qué viene ahora para o3?
A pesar de la controversia, el modelo o3 sigue destacando como uno de los más potentes disponibles. Un 10% en FrontierMath sigue siendo el mejor resultado conocido en una IA lanzada al público.
La versión o4-mini, también recientemente lanzada, será evaluada por las mismas entidades, y sus resultados podrían ofrecer un panorama más claro sobre los avances reales que OpenAI ha logrado.
Mientras tanto, este caso deja una lección importante para toda la industria: es fundamental que las empresas comuniquen de forma clara qué están midiendo, con qué herramientas y en qué condiciones. Solo así los usuarios, desarrolladores y empresas podrán confiar en las capacidades reales de la inteligencia artificial que utilizan.
Como ocurre en muchos campos tecnológicos, los avances reales suelen ir acompañados de grandes anuncios. Y aunque el entusiasmo es natural, es clave mantener una visión crítica. OpenAI no mintió necesariamente, pero tampoco fue del todo clara con los detalles técnicos al público general. Si queremos que la inteligencia artificial sea una herramienta confiable en educación, medicina, ingeniería o cualquier otro campo, la transparencia en su desarrollo debe ir de la mano del progreso.
Este caso con el modelo o3 nos recuerda que detrás de cada número brillante, hay muchas variables que deben ser entendidas y, sobre todo, explicadas.