Proyecto de Microsoft para enseñar a robots a ver y navegar con ayuda de la simulación

Dentro de las capacidades asignadas a los robots y los sistemas autónomos para su funcionamiento, aquellas asociadas con ver y navegar son consideradas como requisito operacional crítico.

Ambas cualidades resultarían esenciales para un robot autónomo de rescate en el propósito de hacer posible que pueda maniobrar y desplazarse a través de espacios difíciles de acceder por los humanos de forma segura.

Así también ocurre al momento de desarrollar agentes de inteligencia artificial, los cuales, para poder dotarlos con una capacidad de percepción y acción segura y eficiente, es necesario partir primero por la elaboración de una ingeniería bien estructurada, de modo que se genere un entorno robusto donde sea posible el desarrollo de ambas cualidades.

No obstante, la programación de un sistema autónomo del mundo real que pueda actuar de forma segura a escala con seguridad constituye una tarea compleja de realizar.

Es así como en esta instancia se produce la asociación entre Microsoft Research y la Universidad de Carnegie Mellon, anunciada previamente en abril de 2019, con el propósito de seguir generando avances enfocados en brindar solución a los desafíos surgidos en el mundo real en áreas como la navegación, la cartografía autónoma y la supervisión de entornos urbanos e industriales subterráneos.

Considerada como parte de las capacidades fundamentales de los robots, el SLAM (Localización y Cartografía Simultaneas) es una técnica que le permite a estos generar el mapa de un entorno desconocido y calcular su trayectoria al desplazarse dentro del mismo.

Dicha técnica ha hecho posible la obtención de progresos y avances notables, tanto en los métodos basados en la geometría, como en aquellos sustentados en el aprendizaje.

No obstante, cuando se trata de generar un sistema SLAM robusto y confiable para ser implementado en escenarios del mundo real, el objetivo se convierte en un verdadero desafío tomando en cuenta los diferentes factores que inciden en el entorno como los cambios de luz, objetos dinámicos, escenas sin textura, y falta de iluminación.

TartanAir: Conjunto de datos al servicio de los robots

Y es que parte del logro obtenido anteriormente con el SLAM ha sido procedente de los enfoques geométricos.

El hecho de que haya disponibilidad de un gran volumen de datos de entrenamiento, producto de una amplia variedad de condiciones contribuye a que puedan traspasarse los límites de las técnicas y algoritmos sustentados en datos.

Para resolver los obstáculos que entorpecían el desempeño del SLAM dentro de un entorno real el equipo de Microsoft Research y la Universidad de Carnegie Mellon desarrollaron el TartanAir, un completo conjunto de datos diseñado para permitir a los robots realizar tareas de navegación, entre otras actividades.

Para la obtención del conjunto de datos del TartanAir se procedió al uso de entornos de simulación fotorrealistas sustentados en AirSim en los cuales se manifestaban varias condiciones de luz y clima, así como objetos en movimiento.

Cabe destacar que el trabajo y los avances obtenidos por los miembros de ambos equipos sobre el conjunto de datos fue tomado en cuenta para ser presentado en la Conferencia Internacional sobre Robots y Sistemas Inteligentes (IROS 2020) del IEEE/RSJ.

Durante el proceso de recolección de datos en la simulación, podemos captar información que provenga de sensores multimodales, así como también etiquetas precisas sobre el terreno, imagen RGB estéreo, la segmentación, la imagen de profundidad, el flujo óptico, la nube de puntos LiDAR y las poses de las cámaras.

Es así como el TartanAir almacena un gran número de entornos con varios estilos y escenas, abarcando puntos de vista desafiantes y diferentes patrones de movimiento, los cuales, pueden resultar difíciles de registrar mediante el uso de plataformas físicas de recolección de datos.

Tomando en cuenta el conjunto de datos presentes en el TartanAir, Microsoft ha decidido organizar un desafío SLAM visual cuyo punto de partida es el Taller de Visión por Computadora y Reconocimiento de Patrones (CVPR) 2020, el cual está formado por una pista monocular y una pista estéreo.

Cada una de las pistas presenta un total de 16 trayectorias con características desafiantes diseñadas para traspasar los límites de los algoritmos de SLAM visual en la que los participantes tendrán la misión de encontrar el robot y mapear el entorno partiendo de una secuencia de imágenes monoculares/estéreo. Cabe destacar que los participantes tendrán hasta el 15 de agosto de este año como fecha límite para enviar las entradas al desafío.