WWWhat's new

Qué es LlaVA, la IA que reconoce imágenes y habla sobre ellas

Cuando hablamos de usar la Inteligencia Artificial en el día a día tendemos a pensar en ChatGPT y en cualquiera de los usos que podemos darle, pero el caso es que la IA es mucho más que ChatGPT, Midjourney y Runway, la IA está en todos los sectores, con modelos que van naciendo para destacarse de una u otra forma.

Hoy os voy a hablar de LLaVA, una herramienta que podéis probar en llava.hliu.cc de la siguiente forma:

Veamos este ejemplo de una imagen que he subido, un móvil bajo la lluvia y le pregunto «Qué crees que le podría ocurrir a este móvil»

Probando LLaVA

El nuevo modelo de IA de LlaVA permite ahora subir imágenes con mayor resolución, y su capacidad para interpretar el contenido es realmente sorprendente. No solo sabe lo que hay en la imagen, también es capaz de interactuar con nosotros respondiendo a nuestras preguntas en varios idiomas.

Podemos hacer una foto de algo que estamos viendo en la calle y hacer preguntas a LlaVA sobre el contexto, o integrar este sistema inteligente con nuestra aplicación, para que los usuarios tengan funciones más avanzadas.

Pero lo que más me llama la atención es el poder que podría tener algo así en moderación de contenido. Las redes sociales podrían descifrar perfectamente el contenido de la imagen que subimos y bloquearlo en caso de que viole sus términos de uso.

Podemos incluso subir un cuatro y preguntarle quién lo pintó:

Subimos un cuadro a LlaVA

Regístrate a la newsletter de Linkedin para recibir este tipo de contenido cada semana: click aquí

Detalles técnicos sobre LlaVA

El proyecto LLaVA (Large Language and Vision Assistant), presentado en NeurIPS 2023 como parte de una contribución oral, introduce un modelo multimodal de última generación diseñado para comprender y generar respuestas basadas tanto en texto como en imágenes. Este enfoque representa un avance significativo en el campo del procesamiento del lenguaje natural y la visión por computadora, ofreciendo capacidades de interacción visual y lingüística de propósito general. A continuación, se analizan los aspectos más destacados del proyecto, su implementación y los resultados obtenidos.

Fundamentos del proyecto LLaVA

Innovaciones y implementación

Resultados sobresalientes

LLaVA muestra capacidades de chat multimodal impresionantes, a veces exhibiendo comportamientos similares al GPT-4 multimodal en imágenes o instrucciones no vistas anteriormente, logrando un 85.1% de puntuación relativa en comparación con GPT-4. Al afinarse en preguntas y respuestas científicas, LLaVA alcanza una precisión sin precedentes del 92.53%, superando el estado del arte en este ámbito.

Datos y Open-Source

Se generaron 158K ejemplos únicos de instrucción siguiendo instrucciones multimodales basados en el conjunto de datos COCO, disponibles públicamente para la comunidad de investigación. El código, los datos generados y el modelo se han hecho públicos, promoviendo la transparencia y facilitando la reproducción y mejora por parte de la comunidad.

Conclusiones

El proyecto LLaVA no solo establece nuevos estándares de precisión en tareas específicas como el QA científico, sino que también ofrece un nuevo enfoque para el entrenamiento y la afinación de modelos multimodales. Al hacer uso eficiente de los datos públicos y lograr entrenamientos rápidos en hardware accesible (un solo nodo 8-A100), demuestra la viabilidad de modelos avanzados sin depender de conjuntos de datos de escala billonaria. Este avance subraya el potencial de los modelos multimodales en una variedad de aplicaciones, desde la interacción cotidiana hasta dominios especializados como la ciencia, y pone de relieve la importancia de la innovación continua en la intersección del procesamiento del lenguaje natural y la visión por computadora.

Referencias