Enseñando a los robots a través del lenguaje: un puente entre las instrucciones humanas y las acciones robóticas

Juan Diego Polo

hace 2 años

La era de la robótica está en pleno auge, y la necesidad de una comunicación efectiva entre humanos y máquinas nunca ha sido tan crucial. Google ha dado un paso adelante en este campo, presentando una forma innovadora de enseñar a los robots nuevas habilidades a través del lenguaje natural. Veamos cómo este enfoque podría cambiar la forma en que interactuamos con los robots.

Objetivo: Empoderamiento de los Usuarios

El objetivo principal de este proyecto es permitir que los usuarios finales enseñen a los robots a realizar tareas novedosas mediante el uso de instrucciones en lenguaje natural. Esto no solo hace que la interacción con los robots sea más accesible sino que también abre nuevas posibilidades en aplicaciones del mundo real, como enseñar a un robot perro a realizar un truco o a un robot manipulador cómo organizar una caja de almuerzo.

Desafíos Actuales en la Comunicación con Robots

Los métodos actuales se centran en utilizar el lenguaje para vincular nuevos comportamientos a partir de una biblioteca existente de primitivas de control. Sin embargo, estos métodos enfrentan desafíos al generar comandos de bajo nivel para los robots, ya que la disponibilidad limitada de datos relevantes de entrenamiento crea un cuello de botella en la expresión de estos métodos.

La Propuesta: recompensas

La solución propuesta, denominada «Language to Rewards for Robotic Skill Synthesis», utiliza funciones de recompensa como interfaz para conectar el lenguaje con las acciones de bajo nivel de los robots. Estas funciones ofrecen una riqueza semántica, modularidad e interpretabilidad, proporcionando una conexión directa con las políticas de bajo nivel a través de la optimización de caja negra o el aprendizaje por refuerzo (RL).

Componentes del Sistema

El sistema consta de dos componentes principales:

Traductor de Recompensas: Convierte las instrucciones en lenguaje natural en funciones de recompensa representadas como código Python.
Controlador de Movimiento: Optimiza la función de recompensa para encontrar las acciones óptimas de bajo nivel del robot.

Implementación en Diferentes Robots

La implementación se ha realizado en varios robots, incluyendo un robot cuadrúpedo simulado, un manipulador dextrorso y robots reales. Cada uno de estos ejemplos demuestra la versatilidad y aplicabilidad del sistema en diferentes escenarios y tareas.

Este trabajo no solo presenta una nueva forma de interactuar con los robots sino que también destaca el potencial de los modelos de lenguaje grandes en la creación de una comprensión más profunda entre el lenguaje humano y la comprensión de la máquina. La propuesta de Google no es solo un paso adelante en la robótica; es un reflejo de cómo la tecnología puede ser moldeada para trabajar en armonía con nuestras necesidades y deseos humanos.

Más información en ai.googleblog.com.