Dreamer 4: el agente de inteligencia artificial que aprende sin practicar en el mundo real

Publicado el

inteligencia artificial

Durante años, la inteligencia artificial ha demostrado ser capaz de superar a los humanos en juegos como Go, ajedrez o Atari. Sin embargo, esos logros han estado condicionados por un modelo de aprendizaje por refuerzo basado en prueba y error intensivo, que requiere millones de interacciones para que un agente adquiera habilidades aceptables. Este enfoque, aunque exitoso en entornos digitales, resulta inviable en el mundo físico, donde experimentar puede ser costoso, lento o incluso peligroso.

Para resolver ese problema, los investigadores han apostado por los modelos de mundo: simulaciones digitales en las que los agentes de IA pueden aprender sin riesgo. Sin embargo, hasta ahora, esos modelos han tenido un alcance limitado, sirviendo principalmente en entornos cerrados y simples. Todo esto cambia con la llegada de Dreamer 4, el nuevo agente desarrollado por Google DeepMind.

Un agente que «imagina» el entorno

Dreamer 4 introduce una aproximación que recuerda más a la manera en que los humanos aprenden: anticipando consecuencias antes de actuar. Este sistema no entrena directamente en el entorno real, sino dentro de un mundo virtual generado a partir de datos de video ya grabados. De esta forma, la IA construye un modelo mental del entorno, similar a una simulación interna, donde prueba estrategias y mejora su comportamiento sin necesidad de interactuar físicamente con el entorno.

Lo más llamativo es que Dreamer 4 ha sido capaz de obtener diamantes en Minecraft, uno de los videojuegos más complejos y abiertos que existen, sin haber jugado nunca en tiempo real. Todo su aprendizaje proviene de videos pregrabados de humanos jugando, lo que marca un antes y un después en el campo del entrenamiento de agentes inteligentes.

Por qué Minecraft es un campo de pruebas ideal

Minecraft fue elegido por los investigadores por una razón clara: es un entorno altamente complejo, con mundos generados proceduralmente y tareas de largo plazo que pueden requerir hasta 20.000 acciones consecutivas para completarse. Para obtener un diamante, por ejemplo, un agente debe primero talar árboles, fabricar herramientas, excavar en busca de minerales, fundir metales y muchas otras acciones que dependen unas de otras.

Este tipo de tareas de horizonte largo son un desafío para los modelos tradicionales de IA, que tienden a especializarse en problemas más acotados. El hecho de que Dreamer 4 pueda completar estas misiones sin practicar directamente en el juego revela la sofisticación de su modelo interno.

El corazón de Dreamer 4: un transformador eficiente

En el núcleo de Dreamer 4 hay un modelo transformador optimizado para predecir observaciones futuras, acciones y recompensas dentro de su mundo simulado. Este transformador fue entrenado con un conjunto de datos fijo, compuesto por grabaciones de partidas humanas en Minecraft. A partir de esas grabaciones, el agente construye una representación detallada de las dinámicas del entorno, desde el movimiento de objetos hasta el uso de herramientas complejas.

Uno de los avances técnicos clave fue la introducción de un nuevo método de entrenamiento llamado shortcut forcing, que permite acelerar las predicciones del modelo en más de 25 veces frente a los generadores de video tradicionales. Esto hace posible que el agente «piense» en tiempo real, imaginando escenarios diversos para ensayar decisiones.

Aprender de pocos datos y generalizar

Otro aspecto sorprendente de Dreamer 4 es su eficiencia. Mientras que otros agentes necesitan miles de horas de grabaciones con acciones detalladas, Dreamer 4 logra aprender con apenas unas cientos de horas de datos de acción. La mayor parte de su conocimiento proviene sólo de observar videos, sin necesidad de conocer cada tecla pulsada o cada movimiento del ratón.

Esto abre la puerta a un futuro donde los robots podrán entrenarse a partir de los millones de videos disponibles en internet, observando cómo los humanos interactúan con el mundo para luego replicarlo en escenarios simulados. Se trata de una estrategia mucho más viable que registrar interacciones manuales una por una.

Implicaciones para la robótica del futuro

La enseñanza puramente imaginada tiene implicaciones directas para el desarrollo de robots físicos. Tal como explicó Danijar Hafner, autor principal del proyecto, los robots no pueden permitirse cometer errores durante el aprendizaje, porque corren el riesgo de romperse o provocar daños. Con un modelo como Dreamer 4, los robots podrían entrenarse en simulaciones, desarrollando habilidades que luego transfieren al mundo real con menor riesgo.

Además, el modelo es lo suficientemente ligero como para funcionar en una sola GPU, permitiendo interacciones en tiempo real y facilitando la exploración de sus capacidades incluso por parte de jugadores humanos. Dreamer 4 ya demuestra ser capaz de abrir puertas, usar cofres, montar botes y construir objetos simples con un nivel de precisión inédito hasta ahora.

Próximos pasos: memoria a largo plazo y lenguaje

Los investigadores de DeepMind no se detienen aquí. Planean dotar al agente de una memoria de largo plazo, para que los mundos imaginados mantengan coherencia incluso tras miles de pasos. Esto es vital para tareas complejas que se extienden durante mucho tiempo.

También están trabajando en incorporar comprensión del lenguaje natural, lo que permitiría que estos agentes colaboren con personas y sigan instrucciones verbales. Finalmente, sueñan con entrenar los modelos a partir de videos generales de internet, para dotarlos de sentido común y una comprensión amplia del mundo físico sin necesidad de programación manual.