La inteligencia artificial más avanzada de OpenAI no logra resolver un juego del New York Times

Publicado el

imagen minimalista y profesional que representa las limitaciones de la inteligencia artificial

Resulta sorprendente ver cómo un sistema de IA avanzado puede quedarse corto en tareas que para los humanos son casi cotidianas. Este es el caso del modelo de inteligencia artificial más avanzado de OpenAI, conocido como o1, que recientemente falló al intentar resolver el desafiante juego «Connections» del New York Times. Un recordatorio claro de que, a pesar de los avances, las máquinas todavía tienen mucho por aprender.

¿Qué es el juego Connections?

«Connections» es un juego diario que desafía a los jugadores a identificar patrones entre 16 palabras aparentemente aleatorias, agrupándolas en cuatro categorías de cuatro palabras cada una. Las conexiones entre las palabras pueden ser tan obvias como “títulos de libros” o tan crípticas como “palabras que comienzan con ‘fuego’.” Aunque parece simple, este juego requiere un razonamiento lógico y una comprensión profunda de los matices del lenguaje, algo que las IA no siempre dominan.

El juego ha ganado popularidad por su capacidad para poner a prueba el ingenio humano, pero también se ha convertido en un interesante terreno de prueba para evaluar las habilidades de los modelos de inteligencia artificial. Sin embargo, como demuestra este caso, incluso las más avanzadas IAs pueden fallar estrepitosamente.

El desafío de o1 y otros modelos de IA

El experto Gary Smith, del Walter Bradley Center for Natural and Artificial Intelligence, decidió poner a prueba a varios modelos de lenguaje de IA, incluidos los de Google, Anthropic y Microsoft (que utiliza tecnología de OpenAI). Entre ellos, el modelo o1 de OpenAI, promocionado como uno de los sistemas más avanzados disponibles públicamente, fue uno de los que participó en este experimento.

Los resultados fueron decepcionantes. Aunque o1 logró identificar correctamente algunas de las agrupaciones, también cometió errores graves. Por ejemplo, clasificó «boot,» «umbrella,» «blanket» y «pant» como “ropa o accesorios”. Si bien tres de las palabras podrían encajar, la inclusión de «blanket» (manta) deja en claro que el modelo no comprende totalmente el contexto humano. Además, en otro intento, agrupó «breeze,» «puff,» «broad» y «picnic» bajo el tema de “tipos de movimiento o aire”, una conexión que resulta incomprensible para los humanos.

Este tipo de errores subraya una debilidad clave en los modelos de IA actuales: son buenos para procesar datos que ya conocen, pero tienen dificultades para abordar tareas que requieren un razonamiento genuino o conexiones novedosas.

¿Qué nos dice esto sobre la IA y el razonamiento?

En WWWhatsnew.com, creemos que este tipo de fallos son recordatorios importantes de que la inteligencia artificial, aunque impresionante, aún no está al nivel de un razonamiento humano real. A menudo, estas tecnologías funcionan excelentemente en tareas donde pueden basarse en datos de entrenamiento preexistentes, pero luchan con problemas que requieren creatividad o comprensión contextual.

Esto también revela una verdad incómoda sobre las promesas de los desarrolladores de IA. OpenAI, por ejemplo, ha sugerido que está en camino hacia la inteligencia artificial general (AGI, por sus siglas en inglés), una IA que pueda realizar cualquier tarea intelectual que un humano pueda hacer. Sin embargo, incidentes como este demuestran que estamos aún lejos de alcanzar ese objetivo.

¿Por qué fallan las IAs en tareas como estas?

El problema radica en cómo se entrenan los modelos de lenguaje. Estos sistemas no entienden realmente el mundo; en cambio, analizan patrones en grandes cantidades de datos textuales. Aunque esto les permite generar respuestas que a menudo parecen inteligentes, no significa que realmente razonen como lo haría un ser humano.

Cuando se enfrentan a un problema nuevo o a un contexto fuera de su experiencia previa, las IAs tienden a fallar porque no tienen una comprensión innata del significado o las relaciones entre conceptos. En el caso del juego Connections, identificar patrones requiere más que reconocer palabras; implica comprender cómo interactúan dentro de un contexto cultural o lógico.

¿Qué sigue para la inteligencia artificial?

A pesar de estos contratiempos, es importante reconocer que los modelos de IA están en constante evolución. Los desarrolladores continúan mejorando su capacidad para razonar, pero también es crucial establecer expectativas realistas. Como hemos mencionado en varias ocasiones en WWWhatsnew, la IA no es una varita mágica que puede resolver todos los problemas.

Desde nuestra perspectiva, lo que realmente importa no es si un modelo de IA puede resolver un juego del New York Times, sino si puede ayudar a resolver problemas del mundo real de manera efectiva. El verdadero valor de estas tecnologías radica en su aplicación práctica, como mejorar la atención médica, optimizar procesos industriales o facilitar la educación.

La tecnología de IA está avanzando a pasos agigantados, pero aún tiene mucho camino por recorrer antes de alcanzar un razonamiento comparable al humano. Mientras tanto, estos casos sirven como un recordatorio de que la IA no es infalible y que debemos utilizarla como una herramienta complementaria, no como un sustituto de nuestras capacidades.