WWWhat's new

La inteligencia artificial es menos inteligente de lo que parece

imagen minimalista y profesional que representa las limitaciones de la inteligencia artificial

n los últimos años, la inteligencia artificial generativa (Generative AI) ha cautivado a millones con su capacidad para redactar textos, resolver problemas y hasta generar arte. Sin embargo, recientes pruebas realizadas por OpenAI han puesto de manifiesto que estas tecnologías son mucho menos precisas de lo que se pensaba. Veamos qué nos dice el nuevo estándar SimpleQA, creado para medir la precisión factual de los modelos de lenguaje grande (LLMs, por sus siglas en inglés), y por qué esto es importante.

Un “examen SAT” para chatbots

OpenAI diseñó SimpleQA como una especie de examen estandarizado para sus modelos de inteligencia artificial. Este incluye 4,326 preguntas de diversos temas, desde ciencia y política hasta cultura pop. Las preguntas, todas con una respuesta correcta y verificable, se formulan repetidamente a los modelos para evaluar no solo su precisión, sino también su consistencia.

Por ejemplo, preguntas aparentemente simples como:

resultaron ser un desafío para los modelos. La clave del reto radica en que las preguntas exigen respuestas precisas y no permiten variaciones o interpretaciones.

Resultados decepcionantes

Los modelos evaluados, incluyendo GPT-4 en diferentes configuraciones y el modelo Claude-3.5 de Anthropic, fallaron estrepitosamente:

En términos académicos, todos los modelos recibieron una «F», confirmando que incluso los modelos más avanzados no son tan confiables para responder preguntas concretas.

El problema de las “alucinaciones”

Uno de los principales desafíos de los LLMs es su tendencia a “alucinar”: generar respuestas que parecen plausibles pero son completamente falsas. Por ejemplo, durante una evaluación de la herramienta de transcripción Whisper (también desarrollada por OpenAI), se descubrió que algunas transcripciones contenían términos inexistentes, como un supuesto medicamento llamado “antibióticos hiperactivados”.

Este problema es especialmente preocupante en contextos sensibles, como la medicina, donde herramientas basadas en inteligencia artificial ya están siendo utilizadas por hospitales y clínicas. Según estudios recientes, hasta un 40% de estas «alucinaciones» pueden ser consideradas dañinas o preocupantes.

¿Por qué fallan los modelos de IA?

La razón principal de estos errores radica en cómo funcionan los LLMs. A diferencia de las personas, estas herramientas no tienen un modelo interno del mundo que les permita razonar o comprender el contexto en profundidad. Por ejemplo, un estudio reciente mostró que, aunque los LLMs pueden generar direcciones precisas en entornos complejos como Nueva York, su precisión disminuye drásticamente cuando se introducen pequeños cambios, como cierres de calles.

En esencia, los modelos no piensan ni entienden; simplemente generan respuestas basadas en patrones estadísticos presentes en los datos con los que fueron entrenados.

¿Qué podemos hacer?

Desde WWWhatsnew.com creemos que, aunque la inteligencia artificial tiene un enorme potencial, es crucial comprender sus limitaciones. Aquí algunas recomendaciones:

Los LLMs, como ChatGPT o Claude, son herramientas impresionantes, pero no debemos caer en la trampa de sobreestimarlas. La inteligencia artificial no es un sustituto del pensamiento humano, sino un complemento que, bien utilizado, puede transformar la manera en que trabajamos y aprendemos.

Salir de la versión móvil