Microsoft presenta Kosmos-1, para entender el contenido de imágenes y resolver acertijos visuales

Las tecnologías de inteligencia artificial (IA) siguen avanzando, y Microsoft ha presentado su modelo Kosmos-1, un sistema multimodal capaz de analizar imágenes, resolver acertijos visuales, realizar reconocimiento de texto visual, pasar pruebas de coeficiente intelectual visual y entender instrucciones en lenguaje natural. ¿Qué es lo que hace a Kosmos-1 diferente de otros modelos de IA? Su enfoque multimodal.

La importancia del enfoque multimodal

Los expertos en IA creen que para lograr la inteligencia artificial general (AGI) que pueda realizar tareas generales a nivel humano, es necesario adoptar un enfoque multimodal. Este enfoque implica integrar diferentes modos de entrada, como texto, audio, imágenes y video, para lograr una percepción multimodal que simule la percepción humana.

En el caso de Kosmos-1, los investigadores lo describen como un «modelo de lenguaje grande multimodal» (MLLM), ya que se basa en el procesamiento del lenguaje natural al igual que un modelo LLM de solo texto, como ChatGPT. Sin embargo, para que Kosmos-1 acepte imágenes como entrada, los investigadores deben traducir primero la imagen en una serie especial de tokens (básicamente, texto) que Kosmos-1 pueda entender.

El entrenamiento de Kosmos-1

Microsoft entrenó a Kosmos-1 utilizando datos de la web. Después del entrenamiento, evaluaron las habilidades de Kosmos-1 en varias pruebas, incluyendo comprensión del lenguaje, generación del lenguaje, clasificación de texto sin reconocimiento óptico de caracteres, descripción de imágenes, respuesta a preguntas visuales, respuesta a preguntas en páginas web y clasificación de imágenes sin entrenamiento previo. En muchas de estas pruebas, Kosmos-1 superó a los modelos de vanguardia actuales.

La prueba del coeficiente intelectual visual de Raven

Un aspecto interesante es el rendimiento de Kosmos-1 en la prueba de razonamiento progresivo de Raven, que mide el coeficiente intelectual visual presentando una secuencia de formas y pidiéndole al evaluado que complete la secuencia. Para probar a Kosmos-1, los investigadores le dieron una prueba completada, una por una, con cada opción completada, y le preguntaron si la respuesta era correcta. Kosmos-1 solo pudo responder correctamente una pregunta de la prueba de Raven el 22% del tiempo (26% con ajuste fino), pero superó el azar (17%) en la prueba de coeficiente intelectual visual de Raven.

Futuras mejoras en el modelo Kosmos-1

Aunque Kosmos-1 representa los primeros pasos en el dominio multimodal (un enfoque también perseguido por otros), es fácil imaginar que futuras optimizaciones podrían traer resultados aún más significativos, permitiendo que los modelos de IA perciban cualquier forma de medios y actúen sobre ellos. Los investigadores afirman que en el futuro les gustaría escalar Kosmos-1 en tamaño del modelo e integrar la capacidad de habla.

Este enfoque multimodal es visto como un paso importante hacia la inteligencia artificial general (AGI), que puede realizar tareas generales a nivel humano. Aunque Kosmos-1 es un proyecto puramente de Microsoft, su enfoque se alinea con el objetivo declarado de OpenAI de lograr AGI. Microsoft planea hacer que Kosmos-1 esté disponible para los desarrolladores, lo que podría llevar a futuras mejoras y avances en la percepción multimodal y las habilidades de los asistentes artificiales. Con Kosmos-1, la IA se acerca cada vez más a la capacidad de percibir y actuar sobre el mundo de la misma manera que lo hacen los humanos.

Más información en arxiv.org y en este PDF.