En un sorprendente avance que une la inteligencia artificial y la robótica, dos investigadores de la Universidad de California en Berkeley y ETH Zúrich han demostrado que los modelos de lenguaje como GPT-4 pueden usarse para tareas físicas, más allá de sus capacidades de procesamiento de texto. Utilizando brazos robóticos de bajo costo y un enfoque innovador de entrenamiento, el proyecto ha logrado que estos robots identifiquen y limpien derrames con la ayuda de una simple esponja.
Robots que Entienden y Actúan
El experimento, dirigido por Jannik Grothusen y otro colega, muestra cómo un robot equipado con una esponja es capaz de detectar un derrame y responder de manera coherente a las instrucciones humanas. En un video compartido por Grothusen, se puede ver al robot identificando su entorno y explicando paso a paso lo que va a hacer: “Primero, revisaré las habilidades de movimiento disponibles para recoger la esponja y limpiar la mesa, luego ejecutaré la secuencia para limpiar el derrame”. Sin titubear, el brazo robótico pasa a la acción, cumpliendo con su promesa de limpiar.
Una Base Open Source para la Innovación
Lo que hace este proyecto particularmente interesante es su enfoque en la democratización de la robótica. Los brazos robóticos utilizados tienen un costo de solo $250 y el proceso de entrenamiento se completó en cuatro días. Todo el sistema es de código abierto, lo que permite que cualquier persona con conocimientos técnicos básicos pueda construir y entrenar un robot similar en casa, apoyándose en un conjunto de recursos y videos de YouTube.
El proyecto también emplea LangChain, un agente multimodal de código abierto que traduce las entradas y salidas del modelo de lenguaje en comandos de movimiento. La combinación de LangChain y el entrenamiento de refuerzo permitió que los brazos aprendieran a manejarse en el entorno con solo 100 demostraciones.
¿Un Futuro Hogareño para la Robótica?
Grothusen describe esta experiencia como un «concepto de prueba» para una arquitectura de control robótico que integra modelos de lenguaje visuales para la interacción humano-robot, el razonamiento y la orquestación de tareas. Desde WWWhat’s New, creemos que este tipo de avances representa un gran paso hacia la integración de robots en tareas domésticas cotidianas, aunque aún queda por ver si esta tecnología podrá adaptarse y perfeccionarse para convertirse en un producto comercial viable.
La idea de que los avances en inteligencia artificial y tecnologías de código abierto puedan abrir la robótica a un público más amplio es emocionante. Sin embargo, aún es pronto para saber si estos sistemas se convertirán en ayudantes de cocina o limpieza en el hogar. Por ahora, este experimento subraya la creciente capacidad de los modelos de lenguaje para entender y ejecutar acciones físicas, marcando un punto de inflexión en la relación entre el software de IA y el mundo físico.