La nueva IA de Meta tiene un proceso de aprendizaje similar al nuestro

Meta presentó ImageBind, un nuevo modelo de inteligencia artificial que supera a otras IA por su dinámica de entrenamiento.

Es una IA de código abierto que combina seis diferentes tipos de datos para generar contenido multisensorial. Te contamos de qué se trata.

Una IA que aprende como los humanos

El equipo de Meta compartió un informe sobre su nuevo modelo de inteligencia artificial multisensorial, y cómo esta supera a todas las IA que conocemos hasta el momento. El centro de esta cuestión tiene que ver con su proceso de entrenamiento y aprendizaje.

Seguro has escuchado hablar de DALL-E o Midjourney cientos de veces, y hasta puede que hayas usado estas IA para generar imágenes. Para generar ese resultado, las IA son entrenadas a partir de datos de textos e imágenes para crear patrones que conecten las descripciones con datos visuales.

En el caso de la nueva IA de Meta, combina seis tipos de datos como parte de su aprendizaje. Estos son visuales (imágenes y vídeos), audio, texto, datos de profundidad, térmicos y de inercia. Estos tres últimos sirven para calcular el movimiento y posición.

De esta forma, este modelo de inteligencia artificial no solo puede cruzar datos visuales y de audio, sino que también datos que ayudan a entender su entorno.

Para los humanos, una sola imagen puede ‘unir’ una experiencia sensorial completa. ImageBind logra esto mediante el aprendizaje de un espacio de incrustación único que une múltiples entradas sensoriales, sin necesidad de supervisión explícita.

Aplicaciones y futuro de los sistemas multimodales

Así que la IA podría analizar información de muchas entradas de forma simultánea, y vincularlos para crear un escenario. Por ejemplo, en la ilustración del tren, la IA puede tomar datos de estas seis modalidades para determinar el sonido del entorno, el movimiento del tren, las tareas que se están realizando, etc.

Y por supuesto, esto abriría las puertas de la IA a una serie de aplicaciones, como la realidad virtual, el metaverso, la creación de contenido, etc. Por el momento, solo se trata de un proyecto de investigación, así que no veremos los beneficios de esta IA aplicada a ningún producto o aplicación.

Además, considerán seguir trabajando en este modelo de inteligencia artificial para potenciar su nivel de entrenamiento:

Si bien exploramos seis modalidades en nuestra investigación actual, creemos que la introducción de nuevas modalidades que vinculan tantos sentidos como sea posible, como el tacto, el habla, el olfato y las señales de IRMf del cerebro, permitirán modelos de IA más ricos centrados en el ser humano.