n los últimos años, la inteligencia artificial generativa (Generative AI) ha cautivado a millones con su capacidad para redactar textos, resolver problemas y hasta generar arte. Sin embargo, recientes pruebas realizadas por OpenAI han puesto de manifiesto que estas tecnologías son mucho menos precisas de lo que se pensaba. Veamos qué nos dice el nuevo estándar SimpleQA, creado para medir la precisión factual de los modelos de lenguaje grande (LLMs, por sus siglas en inglés), y por qué esto es importante.
Un “examen SAT” para chatbots
OpenAI diseñó SimpleQA como una especie de examen estandarizado para sus modelos de inteligencia artificial. Este incluye 4,326 preguntas de diversos temas, desde ciencia y política hasta cultura pop. Las preguntas, todas con una respuesta correcta y verificable, se formulan repetidamente a los modelos para evaluar no solo su precisión, sino también su consistencia.
Por ejemplo, preguntas aparentemente simples como:
- ¿En qué año se hundió el Titanic?
- ¿Cuál es el símbolo químico del oro?
- ¿Qué ciudad es la capital de Francia?
resultaron ser un desafío para los modelos. La clave del reto radica en que las preguntas exigen respuestas precisas y no permiten variaciones o interpretaciones.
Resultados decepcionantes
Los modelos evaluados, incluyendo GPT-4 en diferentes configuraciones y el modelo Claude-3.5 de Anthropic, fallaron estrepitosamente:
- GPT-4o-preview (el modelo más avanzado de OpenAI) logró solo un 42.7% de precisión.
- Modelos más pequeños, como GPT-4o-mini, alcanzaron un desalentador 8.6%.
- Claude-3.5-sonnet de Anthropic apenas llegó al 28.9%.
En términos académicos, todos los modelos recibieron una «F», confirmando que incluso los modelos más avanzados no son tan confiables para responder preguntas concretas.
El problema de las “alucinaciones”
Uno de los principales desafíos de los LLMs es su tendencia a “alucinar”: generar respuestas que parecen plausibles pero son completamente falsas. Por ejemplo, durante una evaluación de la herramienta de transcripción Whisper (también desarrollada por OpenAI), se descubrió que algunas transcripciones contenían términos inexistentes, como un supuesto medicamento llamado “antibióticos hiperactivados”.
Este problema es especialmente preocupante en contextos sensibles, como la medicina, donde herramientas basadas en inteligencia artificial ya están siendo utilizadas por hospitales y clínicas. Según estudios recientes, hasta un 40% de estas «alucinaciones» pueden ser consideradas dañinas o preocupantes.
¿Por qué fallan los modelos de IA?
La razón principal de estos errores radica en cómo funcionan los LLMs. A diferencia de las personas, estas herramientas no tienen un modelo interno del mundo que les permita razonar o comprender el contexto en profundidad. Por ejemplo, un estudio reciente mostró que, aunque los LLMs pueden generar direcciones precisas en entornos complejos como Nueva York, su precisión disminuye drásticamente cuando se introducen pequeños cambios, como cierres de calles.
En esencia, los modelos no piensan ni entienden; simplemente generan respuestas basadas en patrones estadísticos presentes en los datos con los que fueron entrenados.
¿Qué podemos hacer?
Desde WWWhatsnew.com creemos que, aunque la inteligencia artificial tiene un enorme potencial, es crucial comprender sus limitaciones. Aquí algunas recomendaciones:
- Verificar siempre: No confíes ciegamente en las respuestas de los chatbots. Consulta fuentes originales o utiliza herramientas adicionales para corroborar la información.
- Combinar herramientas: Puedes usar múltiples modelos o herramientas, como Google NotebookLM, para verificar la precisión de una respuesta.
- Usar con propósito: Los LLMs son excelentes para tareas como resúmenes o exploración de temas, pero no para decisiones críticas o información factual precisa.
- Evitar copias directas: Nunca copies directamente las respuestas de un chatbot sin revisarlas, especialmente en contextos profesionales o educativos.
- Aprender sobre IA: Conocer cómo funcionan estas herramientas es esencial para usarlas de manera efectiva y ética.
Los LLMs, como ChatGPT o Claude, son herramientas impresionantes, pero no debemos caer en la trampa de sobreestimarlas. La inteligencia artificial no es un sustituto del pensamiento humano, sino un complemento que, bien utilizado, puede transformar la manera en que trabajamos y aprendemos.