MIT presenta nuevo sistema de reconocimiento de imágenes y voz

Un grupo de informáticos del prestigioso MIT ha desarrollado un sistema que aprende a identificar objetos dentro de una imagen basándose en una descripción oral de la misma.

Solo tienen que obtener la fotografía y un título en audio para que el sistema resalte en tiempo real las regiones relevantes de la imagen que se describe.

El modelo no requiere transcripciones manuales y anotaciones, ya que aprende palabras directamente de clips de voz grabados y objetos en imágenes sin procesar, y los asocia entre sí. Puede reconocer varios cientos de palabras y tipos de objetos diferentes, pero los investigadores esperan que algún día su técnica combinada de reconocimiento de objetos de habla pueda ahorrar innumerables horas de trabajo manual y abrir nuevas puertas en reconocimiento de voz e imagen.

Sobre los problemas actuales comentan:

Los sistemas de reconocimiento de voz como Siri y Google Voice, por ejemplo, requieren transcripciones de miles de horas de grabaciones de voz. Usando estos datos, los sistemas aprenden a mapear señales de voz con palabras específicas. Tal enfoque se vuelve especialmente problemático cuando, digamos, nuevos términos ingresan a nuestro léxico, y los sistemas deben ser entrenados nuevamente.

Quieren hacer reconocimiento de voz de una manera más natural, aprovechando las señales adicionales y la información que los seres humanos tienen el beneficio de usar, pero que los algoritmos de aprendizaje automático no suelen tener acceso. Quieren entrenar a los sitemas informáticos de la misma forma que lo hacemos con los niños: paseando por el mundo y comentando lo que vemos.

En el documento, los investigadores demuestran su modelo con la imagen de la captura superior, donde una niña con cabello rubio y vestido azul se encuentra frente a faro blanco con un techo rojo en el fondo. El modelo aprendió a asociar qué píxeles en la imagen correspondían con las palabras «niña», «cabello rubio», «vestido azul», «faro blanco» y «techo rojo». Cuando se escuchaba un subtítulo de audio narrado, el modelo resaltó cada uno de esos objetos en la imagen tal y como se describieron.

Un paso muy importante para la Inteligencia Artificial.