Un algoritmo inspirado en el cuerpo humano mejora la planificación robótica con modelos de lenguaje

Publicado el

robots

Un equipo de investigadores de la NYU Tandon School of Engineering ha desarrollado un algoritmo innovador que busca transformar la manera en que los robots interpretan y ejecutan tareas. Inspirado en la comunicación entre el cerebro y el cuerpo humanos, el nuevo sistema, llamado BrainBody-LLM, utiliza modelos de lenguaje de gran escala (LLMs) para dividir tareas complejas en pasos manejables y luego traducir esos pasos en movimientos precisos.

Esta propuesta parte de una observación clave: los LLMs, como los que potencian plataformas como ChatGPT, tienen una comprensión sorprendente del contexto humano. Los investigadores, liderados por Vineet Bhat, decidieron aplicar esta capacidad al ámbito de la robótica, diseñando un mecanismo de doble componente: uno que piensa y otro que actúa, como si de un cerebro y un cuerpo se tratara.

Cómo funciona BrainBody-LLM

El algoritmo está compuesto por dos partes principales. Por un lado, el Brain LLM se encarga de la planificación de alto nivel, tomando instrucciones generales como «comer patatas fritas en el sofá» y descomponiéndolas en una secuencia de acciones lógicas: ir a la cocina, coger la bolsa, caminar hasta el sofá, sentarse, y comer. Este proceso se basa en la vasta información del mundo que contienen los LLMs.

Por otro lado, el Body LLM toma cada uno de esos pasos y los convierte en acciones específicas que el robot puede ejecutar, teniendo en cuenta sus limitaciones físicas y su entorno. Es aquí donde entra en juego una de las claves del sistema: un mecanismo de retroalimentación en bucle cerrado.

Esta retroalimentación permite que el robot evalúe constantemente si su acción está teniendo el efecto deseado. Si hay un error o si el entorno ha cambiado, el sistema ajusta sus decisiones. Este ciclo de percepción y corrección lo acerca mucho más a la forma en que los humanos interactúan con el mundo.

Resultados prometedores en pruebas virtuales y reales

Para evaluar la eficacia del algoritmo, los investigadores llevaron a cabo pruebas tanto en simuladores como en entornos reales. Utilizaron la plataforma VirtualHome, donde un avatar robótico realizó tareas del hogar en un entorno virtual. Luego, trasladaron el experimento al mundo físico con un brazo robótico Franka Research 3, ampliamente utilizado en investigación por su precisión y flexibilidad.

Los resultados fueron contundentes. El nuevo sistema logró una tasa de éxito promedio del 84% al completar las tareas, superando en un 17% a los modelos de referencia utilizados como comparación. Esto sugiere que la integración de modelos de lenguaje con retroalimentación continua mejora significativamente la capacidad de los robots para ejecutar tareas complejas de manera autónoma.

Un paso más hacia la autonomía robótica

El enfoque de BrainBody-LLM se alinea con una tendencia reciente en inteligencia artificial: la combinación de modelos de lenguaje con otras herramientas para resolver problemas complejos. En este caso, el sistema no solo interpreta la tarea, sino que también adapta su ejecución al contexto, algo esencial en entornos impredecibles como los hogares humanos.

El equipo también está explorando formas de enriquecer el algoritmo con otras modalidades sensoriales, como visión en 3D, sensores de profundidad y control de articulaciones, con la finalidad de permitir movimientos más precisos y naturales. Esta ampliación sensorial busca que los robots no solo entiendan qué hacer, sino también cómo hacerlo con la misma fluidez que una persona.

Imaginemos que un robot recibe la orden de «preparar café». No basta con saber que debe llenar la cafetera y encenderla. Tiene que detectar si la jarra está en su sitio, si hay agua suficiente o si el botón de encendido está accesible. Estas decisiones implican interpretación visual, control de movimientos precisos y adaptación en tiempo real: justo lo que busca cubrir este nuevo sistema.

El futuro de la robótica impulsada por lenguaje

Este desarrollo podría sentar las bases para una nueva generación de robots domésticos, industriales y asistenciales capaces de desenvolverse en entornos complejos sin necesidad de programación manual para cada acción. Al integrar el razonamiento del lenguaje con capacidades motoras ajustables, los robots ganan una flexibilidad que hasta ahora solo podía encontrarse en la inteligencia humana.

Aunque el algoritmo aún se encuentra en fase experimental, su rendimiento y su diseño modular abren la puerta a adaptaciones en diferentes tipos de robots y situaciones. Podría aplicarse en robots de asistencia para personas mayores, sistemas de automatización en el hogar, o incluso en exploración espacial, donde la adaptabilidad y la autonomía son esenciales.

Este tipo de avances también podría inspirar a otros equipos de investigación a explorar modelos similares, promoviendo un cambio de paradigma en el diseño de algoritmos para control robótico. La combinación de inteligencia simbólica y acción física promete llevarnos a una etapa donde los robots no solo obedezcan, sino que también comprendan y razonen sobre lo que hacen.