Los nuevos modelos de OpenAI son más inteligentes… pero también se inventan más cosas

Publicado el

Ilustración de un robot con símbolos flotantes que representan alucinaciones de IA, en un estilo surrealista y fondo blanco.

La inteligencia artificial ha dado pasos enormes en los últimos años, especialmente en el desarrollo de modelos capaces de razonar. Sin embargo, no todo lo que brilla es oro: los nuevos modelos de OpenAI, o3 y o4-mini, presentan una contradicción que ha sorprendido a muchos expertos. A pesar de ser más avanzados en tareas como la programación o las matemáticas, cometen más errores al inventarse información, un fenómeno conocido como alucinaciones en IA.

¿Qué son las alucinaciones en inteligencia artificial?

Una alucinación, en el contexto de la IA, no tiene nada que ver con visiones o ilusiones ópticas. Se trata de cuando un modelo genera información incorrecta con total confianza, como si fuera cierta. Es como preguntarle a alguien una dirección y que, en lugar de admitir que no la sabe, se la invente.

Este es uno de los desafíos más importantes a la hora de aplicar la IA en contextos donde la precisión es crítica, como el derecho, la medicina o el periodismo.

Modelos más nuevos, más potentes… y más propensos a alucinar

OpenAI lanzó recientemente dos nuevos modelos que pertenecen a su línea enfocada en el razonamiento: o3 y o4-mini. Estos modelos están diseñados para resolver problemas complejos de forma más lógica y estructurada, algo así como pasar de una calculadora básica a un asistente matemático.

No obstante, según pruebas internas de OpenAI, estos modelos alucinan más que sus predecesores. En un benchmark llamado PersonQA, que evalúa el conocimiento sobre personas, el modelo o3 alucinó en el 33% de los casos, el doble que los modelos anteriores (como o1 y o3-mini). El modelo o4-mini fue aún peor, alcanzando un preocupante 48% de alucinaciones.

Esto no solo contradice la tendencia observada hasta ahora —en la que cada nuevo modelo tendía a equivocarse menos—, sino que también pone en jaque la utilidad de estas herramientas en muchos entornos profesionales.

¿Por qué ocurre esto?

Aquí es donde la situación se vuelve aún más compleja: ni siquiera OpenAI sabe con certeza por qué está sucediendo. En su informe técnico, la compañía reconoce que necesita seguir investigando para entender por qué los modelos que razonan más tienden también a alucinar más.

Una de las hipótesis, planteada por investigadores de la organización sin fines de lucro Transluce, apunta a que el tipo de aprendizaje por refuerzo utilizado en estos modelos podría estar amplificando ciertos errores. Es decir, en el intento de hacer que los modelos piensen de forma más autónoma, también se les está dando más libertad para cometer errores sin darse cuenta.

Un ejemplo curioso: en las pruebas de Transluce, o3 afirmó que había ejecutado un código en un MacBook Pro de 2021 «fuera de ChatGPT» para luego copiar los resultados. Algo imposible, porque el modelo no tiene acceso físico a dispositivos externos. Este tipo de errores crean una falsa ilusión de precisión, lo que los hace aún más peligrosos.

Más respuestas no significa más verdad

Una explicación tentativa de OpenAI es que los nuevos modelos generan más respuestas en general, lo que aumenta tanto el número de respuestas correctas como el de respuestas erróneas. Es como lanzar más tiros al arco: puedes meter más goles, pero también fallar más.

Esto sugiere que, al hacer modelos más ambiciosos en sus intentos de razonar y explicar, también se multiplican las oportunidades para que inventen cosas sin fundamento.

¿Qué implicaciones tiene esto para el uso de IA?

Para quienes usan estos modelos en tareas cotidianas, como generar código, responder correos o escribir artículos, las alucinaciones pueden ser un problema menor si se revisa todo con cuidado. Pero en sectores donde la veracidad no es negociable, como el legal o el financiero, este tipo de errores pueden ser catastróficos.

Imagina un abogado que genera un contrato con ayuda de la IA, solo para descubrir después que ciertas cláusulas se basan en normativas inexistentes. O un estudiante que entrega una investigación con citas de autores inventados. El riesgo es real, y está creciendo con estos nuevos modelos.

¿Se puede solucionar?

Una solución prometedora es integrar los modelos con capacidades de búsqueda web. Esto permite que, en lugar de inventarse datos, consulten fuentes externas antes de responder. De hecho, el modelo GPT-4o con búsqueda en línea alcanza un 90% de precisión en pruebas como SimpleQA, uno de los benchmarks de OpenAI.

El desafío aquí es el equilibrio: permitir acceso a información verificada sin comprometer la privacidad del usuario. Muchas veces, para hacer una búsqueda web, es necesario exponer el contenido del prompt a terceros, lo cual no siempre es aceptable para empresas o usuarios sensibles.

¿Por qué seguir apostando por modelos de razonamiento?

A pesar de estos problemas, la industria está volcando sus esfuerzos hacia los modelos de razonamiento. Esto se debe a que han demostrado ser más eficientes en tareas complejas sin necesidad de entrenarlos con enormes volúmenes de datos. Es una manera más sostenible de mejorar el rendimiento de la IA, pero, como estamos viendo, no está exenta de efectos secundarios.

Lo que está ocurriendo con o3 y o4-mini puede ser una señal de alerta: mejorar la capacidad de razonamiento no garantiza mayor exactitud. De hecho, puede provocar el efecto contrario si no se acompaña de mecanismos más sólidos de verificación de hechos.

¿Qué podemos hacer como usuarios?

En el día a día, la mejor herramienta que tenemos sigue siendo el pensamiento crítico. Por muy convincente que suene una IA, no debemos asumir que todo lo que dice es cierto. Verificar, contrastar y usar estos modelos como asistentes —no como fuentes únicas de verdad— es la forma más segura de aprovechar su potencial sin caer en errores graves.

Los desarrolladores, por su parte, tienen la tarea urgente de encontrar nuevas formas de entrenamiento y validación, que permitan controlar estas alucinaciones sin frenar los avances en razonamiento. La inteligencia artificial está madurando, pero como cualquier adolescente brillante, aún tiene mucho que aprender para ser confiable.