La inteligencia artificial es menos inteligente de lo que parece

Si pides a OpenAI un test que mida la precision factual de sus propios modelos, lo razonable es que el resultado no sea alentador. SimpleQA, el examen estandarizado que la compania publico en noviembre de 2024, contiene 4.326 preguntas de respuesta unica y verificable, repartidas entre ciencia, politica, cultura pop y geografia. Sus propios modelos suspendieron. GPT-4o, el sistema mas avanzado disponible entonces, acerto solo el 38,2 por ciento de las preguntas, y o1-preview, en aquel momento el modelo de razonamiento mas reciente, se quedo en el 42,7 por ciento. La traduccion practica es incomoda: tu chatbot favorito acierta en hechos concretos menos de la mitad de las veces. Llevo cubriendo IA generativa desde el lanzamiento de GPT-3 en 2020 y este sigue siendo el debate fundamental que la industria intenta minimizar. Para entender la causa profunda conviene leer las alucinaciones de la IA como un limite matematico, no un error de ingenieria.

Que mide exactamente SimpleQA y por que es relevante

SimpleQA es el primer benchmark publicado por la propia OpenAI cuyo objetivo declarado es medir cuanto inventa un modelo. Las preguntas tienen una sola respuesta correcta y verificable, evitando las preguntas abiertas que premian la prosa fluida. El test elimina temas con respuestas cambiantes en el tiempo y se centra en hechos estables.

El detalle interesante es que SimpleQA mide tambien consistencia: las mismas preguntas se repiten varias veces para detectar si el modelo da la misma respuesta o cambia. La consistencia es una proxy de la confianza interna del modelo, y los resultados son reveladores. Cuando el modelo no esta seguro, sus respuestas varian entre intentos, pero el sistema rara vez admite la incertidumbre. Sigue contestando con la misma seguridad sintactica una afirmacion correcta que un dato inventado. Esa es la raiz del problema y es la que hace falta atacar para que la IA pase de juguete a herramienta de produccion en sectores serios.

Por que los modelos siguen alucinando aunque escalen

La explicacion que la industria asume desde 2024 es estructural. Los modelos de lenguaje no tienen un modelo interno del mundo, sino que predicen la siguiente palabra mas probable en funcion de los patrones aprendidos en su entrenamiento. Cuando un dato aparece pocas veces en los datos de entrenamiento, el modelo extrapola desde patrones lingüisticos parecidos, lo que produce respuestas plausibles pero falsas. Es el origen del termino tecnico hallucination.

El test sobre Whisper, la herramienta de transcripcion automatica de OpenAI, es ilustrativo. En transcripciones medicas, el sistema invento medicamentos como antibioticos hiperactivados, una expresion que no existe pero suena plausible al oido humano. Estudios independientes cifran que entre el 10 y el 40 por ciento de las alucinaciones graves pueden tener consecuencias daninas en contextos clinicos o legales. Es por eso que las claves para reducir las alucinaciones han pasado a ser materia obligatoria para cualquier despliegue empresarial.

Que pueden hacer los desarrolladores y los usuarios

El abanico de mitigaciones se ha desarrollado con rapidez. La mas usada es Retrieval-Augmented Generation, conocido como RAG: el modelo consulta una base de conocimiento verificada antes de responder, citando la fuente. Es la base de productos como Perplexity, Microsoft Copilot con Bing y la mayoria de copilotos empresariales. El segundo enfoque es el fine-tuning con datos especificos de dominio, que reduce alucinaciones en sectores tecnicos. El tercero es la calibracion explicita: ensenar al modelo a decir no se cuando no lo sabe.

Como usuarios, la regla mas util es la verificacion cruzada. Si vas a tomar una decision basada en una respuesta de IA, contrasta el dato concreto con una fuente independiente. La OECD publica desde 2024 una guia oficial sobre uso responsable de IA generativa que recomienda no apoyar decisiones criticas en una sola respuesta de modelo, y la regla aplica igual al codigo de programacion que al diagnostico medico o al asesoramiento financiero. Y, cuando importe la trazabilidad, busca herramientas con arquitectura RAG bien auditada y conocida en sus riesgos de seguridad.

Actualizacion a 26 de abril de 2026

Diecisiete meses despues, la imagen es matizada. Los modelos han mejorado en SimpleQA: GPT-5, lanzado en abril de 2026, declara una precision del 71 por ciento en el benchmark, y Claude Opus 4.7 se situa en torno al 68 por ciento. Pero, paradojicamente, los modelos de razonamiento profundo, como o3 y o4-mini, han mostrado tasas de alucinacion mas altas al resumir informacion publica, llegando hasta un 48 por ciento en algunas evaluaciones independientes. Mas razonamiento no implica mas precision; a veces implica que el modelo construye narrativas mas convincentes alrededor de datos falsos.

OpenAI publico en septiembre de 2025 una autocritica oficial reconociendo que su metodologia de entrenamiento incentivaba la respuesta confiada incluso cuando era incorrecta, y anuncio cambios en la funcion de recompensa para premiar la abstencion. Anthropic, Google y Meta siguieron pasos similares. La calibracion epistemica se ha convertido en un area de investigacion central, con presupuestos que en algunas companias superan los 200 millones de dolares anuales.

Mi valoracion

Llevo escribiendo sobre LLMs desde la primera demo de GPT-3 y mi posicion no ha cambiado: el problema de las alucinaciones es estructural, no superable con mas datos ni mas computo. Tras 36 meses integrando ChatGPT y Claude en mi flujo diario para investigacion y escritura, mi metodo personal es claro: pido respuestas siempre acompanadas de fuente verificable, y rechazo el dato si la fuente no aparece o no se sostiene. La eficiencia que pierdo verificando es mucho menor que el coste reputacional que pagaria por publicar una alucinacion como dato real.

Mi reserva con la conversacion publica sobre la IA es la asimetria informativa. Las empresas comunican mejoras de fiabilidad en porcentajes que suenan tranquilizadores, pero un 70 por ciento de precision en SimpleQA significa que casi una de cada tres respuestas factuales sigue siendo incorrecta. Para un usuario casual no pasa nada. Para un periodista, un abogado o un medico, el margen es inaceptable. La industria y la sociedad necesitan acordar un lenguaje claro sobre que es una herramienta confiable y que no, y todavia estamos lejos.

Preguntas frecuentes

¿Que es una alucinacion en una IA generativa?

Una alucinacion es una respuesta generada por un modelo de IA que parece coherente y plausible pero no tiene base factual real. Puede ser un dato inventado, una cita falsa, un nombre erroneo o una explicacion contraria a la evidencia cientifica. La causa principal es que los modelos de lenguaje predicen palabras siguiendo patrones lingüisticos, no consultan una base de datos verificada antes de responder.

¿Cuales son los modelos de IA mas precisos en hechos en abril de 2026?

En el benchmark SimpleQA actualizado, GPT-5 declara una precision en torno al 71 por ciento, Claude Opus 4.7 cerca del 68 por ciento y Gemini 2.5 Ultra en torno al 64 por ciento. Para tareas factuales con citas verificables, soluciones con arquitectura RAG como Perplexity Pro y Microsoft Copilot for Enterprise reducen alucinaciones por debajo del 5 por ciento gracias a la consulta de fuentes externas en cada respuesta.

¿Como se diferencia una respuesta correcta de una alucinacion?

La regla practica es simple: pide al modelo que cite la fuente y verifica la fuente. Si el modelo no aporta cita, no aceptes la afirmacion. Si la cita existe pero no contiene el dato afirmado, tienes una alucinacion sofisticada. Las herramientas con arquitectura RAG facilitan este proceso al mostrar el documento original que sustenta cada afirmacion. Para datos criticos, la verificacion humana sigue siendo imprescindible.