Google DeepMind impulsa una nueva era de robots que «piensan» mientras actúan

Publicado el

robots que "piensan" mientras actúan

Google DeepMind ha dado un paso importante hacia la creación de robots realmente funcionales en entornos del mundo real. Con la presentación de Gemini Robotics 1.5 y Gemini Robotics-ER 1.5, la compañía ha superado una de las barreras históricas de la robótica: la capacidad de ejecutar tareas complejas y de varios pasos mientras se comprenden instrucciones en lenguaje natural.

A diferencia de modelos anteriores que ejecutaban comandos simples y aislados, estos nuevos sistemas permiten a los robots observar su entorno, planificar sus acciones y explicar en tiempo real qué están haciendo y por qué. Esto supone una transición desde robots que «siguen órdenes» hacia otros que colaboran activamente con humanos, entendiendo la lógica detrás de cada acción.

El modelo dual: cerebro y cuerpo conectados por IA

Los avances de DeepMind se centran en un enfoque dual. Por un lado, Gemini Robotics-ER 1.5 funciona como el «cerebro» del sistema. Es un modelo de visión-lenguaje (VLM) capaz de interpretar comandos, comprender el entorno visual y buscar información en línea para tomar decisiones fundamentadas. Por otro lado, Gemini Robotics 1.5 actúa como los «ojos y manos», un modelo de visión-lenguaje-acción (VLA) que traduce las instrucciones en movimientos físicos, proporcionando a la vez retroalimentación sobre el proceso.

Esta arquitectura imita la relación entre un supervisor que analiza el problema y un operario que ejecuta el plan. Por ejemplo, cuando se le pide al robot que clasifique frutas por color, el «cerebro» interpreta la tarea y transmite los pasos al «cuerpo», que luego ejecuta cada acción, desde identificar los objetos hasta moverlos al lugar correcto. Todo esto mientras explica con lenguaje natural lo que está haciendo, generando una experiencia de interacción fluida y transparente.

Del laboratorio a la vida cotidiana

El potencial de estos modelos no se limita a experimentos controlados. En una de las demostraciones más significativas, los robots fueron capaces de consultar reglas locales de reciclaje en San Francisco a través de Internet para clasificar objetos correctamente entre basura, reciclaje y compost. Este tipo de razonar contextual, apoyado por la búsqueda de información externa, representa un hito en la autonomía robótica.

Otra prueba destacada fue el uso del robot Apollo, con forma humanoide, para clasificar ropa por colores. Durante la tarea, se modificó la posición de los objetos, obligando al sistema a revaluar el espacio físico en tiempo real. El robot ajustó su plan de acción de forma eficiente, mostrando una comprensión dinámica del entorno. Esto marca un avance frente a modelos anteriores que dependían de condiciones estáticas para funcionar.

Una inteligencia que se transfiere entre robots

Una de las características más poderosas de esta tecnología es su capacidad de aprendizaje generalizado. Todo lo que el sistema aprende al operar con un robot específico, como los brazos Aloha 2, puede aplicarse a otros sistemas robóticos como Apollo o el bi-brazo Franka. Esta portabilidad del conocimiento permite acelerar el desarrollo de nuevas aplicaciones y facilita que una misma inteligencia artificial pueda habitar distintos cuerpos mecánicos, como si un conductor pudiera pasar de manejar un coche a pilotar un dron sin necesidad de reaprender.

Este principio también implica una reducción en los costes de entrenamiento y personalización de cada robot. Antes, cada sistema necesitaba ser entrenado con datos específicos para tareas concretas. Ahora, los robots pueden compartir experiencias y soluciones, creando una red de conocimiento acumulativo.

Más allá del gesto mecánico: hacia la comprensión real

Detrás de acciones aparentemente simples, como colocar una banana en una canasta, hay una serie de microdecisiones complejas: identificar el objeto, estimar su posición en el espacio tridimensional, calcular el mejor trayecto sin colisiones y aplicar la fuerza justa para no dañarlo. Con la nueva generación de modelos Gemini, estas acciones se integran con una capa de comprensión y razón verbalizada, donde el robot no solo hace, sino que sabe por qué lo hace.

El objetivo de DeepMind es que los robots puedan colaborar en tareas cotidianas del hogar o el trabajo, desde ordenar una cocina hasta ayudar en entornos industriales o de salud. Aunque estas aplicaciones están todavía en fase experimental, el camino hacia asistentes robóticos con sentido común está mucho más cerca de lo que muchos imaginaban hace unos años.

Implicaciones futuras y desafíos

El uso de inteligencia artificial general en robots plantea también interrogantes. Cuestiones como la seguridad, la interpretación de comandos ambiguos, la protección de datos o el impacto en el empleo deben abordarse de forma paralela a los avances tecnológicos. El hecho de que un robot pueda acceder a información online y actuar según ella abre puertas, pero también riesgos.

No obstante, la capacidad de estos modelos para descomponer tareas en pasos pequeños y ejecutarlos con flexibilidad les da una ventaja significativa frente a sistemas anteriores. Esto les permite adaptarse a situaciones no previstas y actuar con una forma de «sentido práctico» que los hace más útiles en entornos cambiantes.

Fuentes como el equipo de investigación de DeepMind destacan que los robots generalistas necesitan una comprensión profunda del mundo físico, capacidad de razonar y control fino de sus movimientos. Con estos nuevos modelos, parece que ese ideal está tomando forma.