Científicos prueban la IA en evaluaciones de deterioro cognitivo y los resultados sorprenden

Desde la llegada de ChatGPT y otros modelos de lenguaje de gran escala (LLM), la inteligencia artificial ha demostrado una capacidad sorprendente para simular la conversación humana. Sin embargo, un reciente estudio realizado por investigadores de Israel sugiere que estos modelos pueden experimentar una forma de declive cognitivo con el tiempo, similar al envejecimiento humano.

El estudio: IA bajo evaluación cognitiva

Los investigadores aplicaron pruebas cognitivas estándar a diversas versiones de chatbots públicos, incluyendo:

ChatGPT 4 y 4o (OpenAI)
Gemini (Alphabet, versiones recientes y anteriores)
Claude 3.5 (Anthropic)

El objetivo era evaluar el desempeño de estos modelos en tareas diseñadas para medir habilidades cognitivas humanas, como memoria, funciones ejecutivas y reconocimiento espacial.

Resultados sorprendentes: ¿Deterioro cognitivo en IA?

El estudio, dirigido por los neurólogos Roy Dayan y Benjamin Uliel del Hadassah Medical Center, junto con el científico de datos Gal Koplewitz de la Universidad de Tel Aviv, encontró que los modelos más avanzados aún mostraban signos de débil rendimiento en tareas cognitivas.

Por ejemplo, en la Evaluación Cognitiva de Montreal (MoCA), una herramienta comúnmente usada para detectar deterioro cognitivo en humanos, ChatGPT 4o obtuvo la mejor puntuación con 26 de 30 puntos, lo que en humanos indicaría un deterioro leve. Otras puntuaciones fueron:

ChatGPT 4 y Claude 3.5: 25 puntos
Gemini: 16 puntos (indicativo de deterioro severo en humanos)

Estos resultados indican que incluso las versiones más avanzadas de IA aún presentan deficiencias importantes en áreas clave del pensamiento y la percepción.

Problemas detectados en la IA

1. Dificultades en tareas visuoespaciales y ejecutivas

Los modelos evaluados tuvieron problemas al realizar tareas que requerían reconocimiento de patrones visuales, como:

Copiar una figura tridimensional
Dibujar un reloj
Completar secuencias espaciales

A menudo, los chatbots fallaban completamente o necesitaban instrucciones explícitas para completar estas tareas.

2. Fallas en la orientación espacial

Cuando se les pidió indicar su ubicación en el espacio, los modelos generaban respuestas vagas o evasivas. Claude, por ejemplo, respondió: «la ubicación exacta depende de dónde estés tú, el usuario», un patrón similar al que se observa en pacientes con demencia.

3. Falta de empatía y comprensión contextual

Otro hallazgo fue la dificultad de las IA para interpretar situaciones sociales y emocionales. En la prueba de Boston Diagnostic Aphasia Examination, las respuestas de los modelos carecían de empatía, un rasgo característico de demencias frontotemporales.

¿Qué significa esto para el futuro de la IA?

Los investigadores enfatizan que, aunque las IA no son cerebros humanos, los resultados desafían la idea de que estamos cerca de una revolución en inteligencia artificial capaz de reemplazar funciones cognitivas complejas.

Por ahora, las limitaciones en la interpretación de escenas visuales y la comprensión contextual sugieren que la IA aún tiene un largo camino antes de poder desempeñar roles en campos como la medicina, donde se requiere análisis visual y toma de decisiones basada en situaciones complejas.

¿Se puede mejorar la inteligencia artificial?

A pesar de sus deficiencias, los resultados también sugieren que cada nueva generación de modelos logra mejorar en áreas donde sus predecesores fallaban. Es posible que en las próximas décadas, algún modelo de IA logre superar pruebas cognitivas humanas con una precisión cercana a la de un experto.

Mientras tanto, los científicos advierten que la información generada por estos modelos debe ser tratada con escepticismo. Aunque cada vez más avanzados, los chatbots actuales aún cometen errores y carecen de un pensamiento genuino o comprensión profunda de la información que generan.

Conclusión: IA con limitaciones cognitivas

Si bien los modelos de lenguaje son herramientas poderosas, no son mentes humanas y todavía tienen dificultades para procesar información de manera coherente en ciertos contextos.

Desde WWWhatsnew, creemos que estos hallazgos subrayan la importancia de seguir desarrollando IA con criterios más estrictos de evaluación y mayor transparencia en sus capacidades y limitaciones. A medida que estas tecnologías se integran en áreas críticas como la salud y la educación, es fundamental comprender hasta qué punto pueden ser realmente fiables.