Una Inteligencia Artificial que aprende cosas grabando desde la cabeza de un bebé

Hoy he leído un artículo sobre un avance fascinante en el campo de la inteligencia artificial (IA), un estudio en nature que ofrece nuevas perspectivas sobre el aprendizaje humano, inspirándose nada menos que en la visión del mundo a través de los ojos de un bebé.

Este estudio, liderado por Wai Keen Vong y su equipo de la Universidad de Nueva York, se centra en un modelo de IA que ha aprendido a reconocer objetos y palabras como «cuna» y «pelota» mediante el análisis de grabaciones desde una cámara montada en la cabeza de un bebé. Lo que hace a esta investigación singular es el método de aprendizaje del modelo: observar una pequeña fracción de la vida de un solo infante, algo que plantea un interesante debate sobre cómo los seres humanos adquieren el lenguaje.

A diferencia de otros modelos de lenguaje como ChatGPT, que aprenden de billones de puntos de datos, este enfoque intenta imitar la manera en que un bebé empieza a entender el mundo. Vong señala una diferencia crucial: «No nos entregan Internet al nacer«. Esto resalta una limitación importante en nuestro entendimiento actual sobre el aprendizaje del lenguaje en los humanos, sugiriendo que la IA puede desempeñar un papel crucial en desentrañar este misterio.

El modelo se entrenó con 61 horas de grabaciones, capturando 250,000 palabras y las imágenes correspondientes desde la perspectiva del bebé, una ventana única a su proceso de aprendizaje. La técnica utilizada, el aprendizaje contrastivo, permitió al modelo discernir qué imágenes y texto tienden a coincidir, proporcionando una base para predecir a qué se refieren ciertas palabras.

Desafíos y descubrimientos

El éxito del modelo, identificando el objeto correcto el 62% de las veces en pruebas específicas, es notablemente superior al 25% que se esperaría por casualidad, y comparable a modelos de IA entrenados con hasta 400 millones de pares de imagen-texto. Aún más impresionante es su capacidad para identificar correctamente ejemplos nunca antes vistos de ciertas palabras, como «manzana» y «perro», aunque con una tasa de éxito promedio del 35%.

Este estudio desafía teorías existentes en ciencias cognitivas, que sugieren que los bebés necesitan conocimiento innato sobre el funcionamiento del lenguaje para atribuir significado a las palabras, y ofrece una crítica a la visión de lingüistas como Noam Chomsky, sobre la complejidad y la supuesta necesidad de mecanismos especiales en la adquisición del lenguaje.

Implicaciones futuras

Aunque basarse en la experiencia de un solo niño puede generar preguntas sobre la generalización de estos hallazgos, el estudio abre caminos emocionantes para futuras investigaciones. La limitación del modelo a imágenes estáticas y texto escrito subraya la complejidad del aprendizaje humano real y sugiere áreas para refinamientos adicionales que podrían hacer que la IA se alinee más estrechamente con este proceso.

En WWWhatsnew, hemos cubierto diversas innovaciones tecnológicas y este enfoque único en el aprendizaje automático no solo amplía nuestra comprensión de la IA, sino que también ilumina aspectos fundamentales del aprendizaje humano. La posibilidad de que futuras mejoras hagan que estos modelos sean más congruentes con la complejidad del aprendizaje humano es inmensa y representa una avenida emocionante para los avances en las ciencias cognitivas.

Referencias

This AI learnt language by seeing the world through a baby’s eyes https://www.nature.com/articles/d41586-024-00288-1