El desafío de medir la inteligencia artificial general: El caso de ARC-AGI

Publicado el

Robot analizando rompecabezas en laboratorio de inteligencia artificial general

La inteligencia artificial general (AGI, por sus siglas en inglés) es un tema candente en la industria tecnológica. Es el sueño de desarrollar un sistema que no solo realice tareas específicas, como lo hacen las actuales IA, sino que piense y razone como un ser humano. Uno de los intentos más reconocidos para medir el progreso hacia este objetivo es el ARC-AGI, un benchmark diseñado en 2019 por François Chollet, una figura destacada en el mundo de la IA. Sin embargo, aunque ha habido avances recientes, estos han puesto en evidencia problemas fundamentales con la prueba en sí, en lugar de confirmar que estamos más cerca de la AGI.

¿Qué es el ARC-AGI?

El ARC-AGI (Abstract and Reasoning Corpus for Artificial General Intelligence) es un conjunto de tareas que evalúa si una IA puede resolver problemas completamente nuevos, es decir, tareas para las que no ha sido entrenada explícitamente. La idea es medir la capacidad de la IA para generalizar, aprender y adaptarse, habilidades esenciales para alcanzar la AGI.

Las tareas del ARC-AGI son similares a puzzles visuales. Por ejemplo, un sistema de IA debe observar patrones en una cuadrícula de colores y generar la solución correcta basándose en esos patrones. Este enfoque busca evitar que las IA simplemente memoricen respuestas, forzándolas a razonar y extrapolar.

Hasta hace poco, los mejores modelos lograban resolver solo un tercio de las tareas del ARC-AGI. Pero en 2024, un concurso con un premio de un millón de dólares impulsó avances significativos. La mejor IA alcanzó un 55.5% de aciertos, un salto considerable desde el ~33% previo.

¿Estamos más cerca de la AGI?

A pesar del progreso, tanto François Chollet como Mike Knoop, cofundador de Zapier y colaborador en este proyecto, han sido cautelosos con las interpretaciones. Según Knoop, muchos de los avances recientes se lograron mediante enfoques de fuerza bruta. Esto significa que, en lugar de razonar como un humano, las IA encontraron maneras de optimizar soluciones específicas sin demostrar una verdadera capacidad de generalización.

Chollet, crítico de los modelos de lenguaje como GPT, argumenta que estos son buenos en tareas específicas gracias a su habilidad para reconocer patrones en enormes cantidades de datos, pero carecen de verdadera creatividad o razonamiento. En sus palabras, “si necesitas entrenarte en muchos ejemplos de un patrón para aprenderlo, solo estás memorizando”.

Críticas y planes futuros

El ARC-AGI no ha estado exento de críticas. Algunos expertos cuestionan si realmente evalúa las capacidades necesarias para la AGI. Además, el concepto mismo de inteligencia general sigue siendo debatido. Mientras que algunos creen que la AGI debería igualar o superar al humano promedio en cualquier tarea, otros sugieren que ya hemos logrado algo cercano a la AGI bajo definiciones más flexibles.

En respuesta, Chollet y Knoop han anunciado una segunda generación del ARC-AGI para 2025, con mejoras que aborden las deficiencias actuales. Según ellos, el objetivo es continuar incentivando la investigación en áreas clave que aún son un desafío para la IA.

El problema de definir la inteligencia

La dificultad para medir el progreso hacia la AGI refleja un problema más profundo: definir qué es la inteligencia. Este dilema no es nuevo; los filósofos y científicos han debatido durante siglos sobre qué significa ser inteligente. En el caso de las IA, esto se complica por su naturaleza estadística y algorítmica. ¿Debe la inteligencia incluir la creatividad? ¿Es la adaptación a nuevas situaciones suficiente? Estas preguntas seguirán alimentando el debate.

Desde WWWhatsnew.com, creemos que la búsqueda de la AGI no solo es un reto técnico, sino también filosófico. Aunque benchmarks como ARC-AGI son útiles, también nos recuerdan las limitaciones de intentar encapsular algo tan complejo como la inteligencia en un conjunto finito de tareas.

Los avances en ARC-AGI destacan la rapidez con que la investigación en IA evoluciona, pero también subrayan las limitaciones actuales de los enfoques y herramientas disponibles. En última instancia, medir el progreso hacia la AGI requiere no solo mejorar nuestras pruebas, sino también redefinir lo que entendemos por inteligencia.