En un esfuerzo por hacer la robótica más accesible y personalizable, un grupo de investigadores de Stanford, UC Berkeley, el Instituto de Investigación de Toyota y Google Deepmind han lanzado OpenVLA. Este modelo de visión-lenguaje-acción (VLA) de código abierto promete cambiar la manera en que entendemos y utilizamos la inteligencia artificial en la robótica.
Los modelos VLA tradicionales han sido revolucionarios, pero su adopción ha sido limitada por su naturaleza cerrada y la falta de prácticas recomendadas para su implementación en nuevos entornos. OpenVLA nace para abordar estos problemas, ofreciendo un modelo abierto y flexible, diseñado para ser optimizado y adaptado con facilidad.
¿Qué es OpenVLA?
OpenVLA es un modelo con 7 mil millones de parámetros, basado en el modelo de visión-lenguaje Prismatic-7B. Utiliza un codificador visual de dos partes para extraer características de las imágenes y el modelo Llama-2 7B para procesar instrucciones en lenguaje natural. Este enfoque le permite al modelo interpretar comandos y decidir la secuencia de acciones que debe realizar un robot para completar una tarea.
Formación y Rendimiento
Para entrenar OpenVLA, los investigadores utilizaron un conjunto de datos masivo de 970,000 trayectorias de manipulación de robots del dataset Open-X Embodiment. Esto abarca una amplia gama de robots, tareas y escenarios, lo que permite al modelo generalizar de manera efectiva.
El rendimiento de OpenVLA ha sido notable. Supera al modelo RT-2-X de 55 mil millones de parámetros en diversas tareas y entornos, demostrando su eficacia y eficiencia. Además, es capaz de ser afinado con estrategias de bajo costo, utilizando técnicas de adaptación de bajo rango (LoRA) y cuantización de modelos.
Implementación y Accesibilidad
Uno de los puntos fuertes de OpenVLA es su accesibilidad. Los investigadores han puesto a disposición de la comunidad todos los modelos, cuadernos de implementación y afinación, y el código base de OpenVLA para la formación de VLAs a gran escala. Esto incluye soporte para la afinación del modelo en GPUs individuales y el entrenamiento en clusters de múltiples GPUs, así como compatibilidad con técnicas modernas de optimización y paralelización.
Casos de Uso y Futuras Mejoras
OpenVLA ya ha demostrado su capacidad en tareas de manipulación de objetos y limpieza de superficies, con un éxito notable en la generalización de instrucciones en entornos multitarea. Los investigadores planean mejorar OpenVLA para soportar múltiples entradas de imagen y datos proprioceptivos, así como el historial de observación, lo que aumentará su flexibilidad y capacidad de adaptación.
OpenVLA representa un avance significativo en la robótica, al hacer accesibles modelos VLA de alto rendimiento a un público más amplio. Con su capacidad de generalizar tareas y su eficiencia en el uso de recursos, este modelo tiene el potencial de transformar la manera en que los robots interactúan con el mundo.