DenseAV: El algoritmo que aprende idiomas viendo vídeos

Publicado el

ia en idiomas

DenseAV es el nuevo algoritmo desarrollado por investigadores del MIT que está revolucionando la forma en que las máquinas pueden aprender idiomas. Este innovador sistema se basa en la asociación de señales de audio y video, y promete cambiar nuestra comprensión sobre cómo los seres humanos y los animales se comunican. Vamos a sumergirnos en cómo funciona este asombroso avance tecnológico.

Inspiración en una película

Todo comenzó con una escena de la película «March of the Penguins«. En un momento, un pingüino cae y emite un gruñido mientras se levanta. Para Mark Hamilton, estudiante de doctorado del MIT, este gruñido sonaba como una palabra de cuatro letras en inglés. Esta observación le llevó a pensar si un algoritmo podría aprender un idioma simplemente viendo y escuchando videos. Así nació la idea de DenseAV.

¿Cómo funciona DenseAV?

DenseAV aprende a predecir lo que ve a partir de lo que oye, y viceversa. Por ejemplo, si escucha la frase «hornear el pastel a 350 grados», buscará imágenes de un pastel o un horno. Este método, conocido como aprendizaje contrastivo, permite al modelo encontrar coincidencias entre pares de señales de audio y video sin necesitar ejemplos etiquetados.

Componentes principales

El algoritmo utiliza dos componentes principales que procesan los datos de audio y video por separado. Esta separación impide que el algoritmo haga trampa, obligándolo a reconocer objetos y crear características significativas tanto para las señales de audio como de video.

Resultados sorprendentes

Al entrenar DenseAV, los investigadores observaron que cuando alguien decía «perro», el algoritmo buscaba inmediatamente un perro en el video. De igual manera, al escuchar un ladrido, buscaba la imagen de un perro. Esto mostró que DenseAV podía distinguir entre la palabra «perro» y el sonido de un ladrido, lo que indica una comprensión profunda de las conexiones entre diferentes tipos de señales.

Exploraciones detalladas

Para profundizar, los investigadores dieron a DenseAV un «cerebro de dos lados». Un lado se centró en el lenguaje y el otro en los sonidos. Este diseño permitió al algoritmo aprender no solo el significado de las palabras y los sonidos, sino también diferenciarlos de manera autónoma.

Aplicaciones futuras

Las aplicaciones de DenseAV son vastas. Uno de los usos más prometedores es el aprendizaje de nuevos idiomas, como la comunicación de delfines o ballenas, que no tienen una forma escrita. Además, DenseAV podría ayudar a descubrir patrones entre otras parejas de señales, como los sonidos sísmicos y la geología de la Tierra.

Desafíos y logros

El equipo enfrentó un gran desafío: aprender un idioma sin ninguna entrada de texto. Inspirados en cómo los niños aprenden observando y escuchando su entorno, lograron que DenseAV reconociera objetos y sonidos creando características detalladas y significativas para ambos tipos de señales.

DenseAV se entrenó con AudioSet, que incluye dos millones de videos de YouTube. También se crearon nuevos conjuntos de datos para probar cómo el modelo puede vincular sonidos e imágenes. DenseAV superó a otros modelos en tareas como identificar objetos a partir de sus nombres y sonidos.

Futuro del aprendizaje de máquinas

El siguiente objetivo del equipo es crear sistemas que puedan aprender de grandes cantidades de datos solo de video o solo de audio. Este avance es crucial para nuevos dominios donde hay mucha información de un solo modo. También planean escalar el sistema utilizando arquitecturas más grandes e integrar conocimientos de modelos de lenguaje para mejorar el rendimiento.

Colaboradores y créditos

Este trabajo es un esfuerzo conjunto de investigadores del MIT y otras instituciones. Entre los autores adicionales se encuentran Andrew Zisserman de la Universidad de Oxford, John R. Hershey de Google AI Perception y William T. Freeman, profesor del MIT.

DenseAV representa un paso significativo hacia métodos que pueden aprender observando el mundo a través de la vista y el sonido. Este modelo, sin suposiciones sobre el idioma, podría aprender de datos en cualquier idioma y tiene el potencial de revolucionar la forma en que entendemos la comunicación.

Más información en Mark Hamilton et al, Separating the «Chirp» from the «Chat»: Self-supervised Visual Grounding of Sound and Language, arXiv (2024). arxiv.org/abs/2406.05629

Comparte en: