Si pides a OpenAI un test que mida la precision factual de sus propios modelos, lo razonable es que el resultado no sea alentador. SimpleQA, el examen estandarizado que la compania publico en noviembre de 2024, contiene 4.326 preguntas de respuesta unica y verificable, repartidas entre ciencia, politica, cultura pop y geografia. Sus propios modelos suspendieron. GPT-4o, el sistema mas avanzado disponible entonces, acerto solo el 38,2 por ciento de las preguntas, y o1-preview, en aquel momento el modelo de razonamiento mas reciente, se quedo en el 42,7 por ciento. La traduccion practica es incomoda: tu chatbot favorito acierta en hechos concretos menos de la mitad de las veces. Llevo cubriendo IA generativa desde el lanzamiento de GPT-3 en 2020 y este sigue siendo el debate fundamental que la industria intenta minimizar. Para entender la causa profunda conviene leer las alucinaciones de la IA como un limite matematico, no un error de ingenieria.
Continúa leyendo «La inteligencia artificial es menos inteligente de lo que parece»