Cuando vemos una imagen conseguimos entender lo que hay en ella usando muchas variables que tenemos en cuenta casi sin darnos cuenta. Los ordenadores necesitan muchas más pistas para entender el contexto y poder así describir lo que hay enfrente de ellos.
Ahora Microsoft ha presentado un sistema de inteligencia artificial que se entrena en pares imagen-texto de una manera que imita la forma en que los humanos mejoran su comprensión del mundo.
Se trata de un modelo que puede generar descripciones de imágenes y responder preguntas en lenguaje natural sobre escenas, un modelo que ha sido entrenado con tres millones de pares de imagen-texto y que está disponible en GitHub en código abierto.
El investigador senior de Microsoft Hamid Palangi comentó en un blog que los algoritmos de calidad de subtítulos de imágenes y preguntas de respuesta visual generalmente tienen un rendimiento inferior por tres razones:
– No pueden aprovechar el contexto para describir imágenes y razonar sobre ellas.
– No están aprovechando los datos de capacitación a gran escala para el entrenamiento.
– Su arquitectura no está diseñada para desempeñarse bien en tareas de lenguaje, alineación de visión y generación de lenguaje.
Con su nuevo modelo han superado a los modelos de vanguardia en varias métricas de subtítulos de imágenes y respuestas visuales de preguntas, incluyendo en cuestiones relacionadas con la similitud en el diseño de ropa, por ejemplo.
Comentan que aprovechan los recursos existentes disponibles públicamente para alcanzar niveles aún mayores en la comprensión del lenguaje y la escena, y lo hacen sin sacrificar el rendimiento, lo que significa sistemas de visión-lenguaje más efectivos y capaces sin los costos de varios modelos entrenados por separado para lograr los mismos objetivos.