Cohere lanza modelos de IA Aya Vision: avances en la comprensión de imágenes y texto

Publicado el

Ojo digital con circuitos y figuras geométricas flotantes, simbolizando la inteligencia artificial en visión computacional.

La inteligencia artificial sigue evolucionando a pasos agigantados, y uno de los últimos avances en el campo de la visión computacional proviene de Cohere. La empresa ha lanzado Aya Vision, un conjunto de modelos de inteligencia artificial diseñados para analizar, traducir y generar texto basado en imágenes. Este lanzamiento es especialmente relevante porque los modelos son de código abierto, lo que significa que investigadores y desarrolladores pueden acceder a ellos libremente para proyectos académicos y experimentación.

¿Qué es Aya Vision y cuáles son sus capacidades?

Aya Vision es un modelo de IA multimodal, lo que quiere decir que puede procesar tanto texto como imágenes. A diferencia de otras IA que solo entienden texto, Aya Vision puede analizar imágenes, responder preguntas sobre ellas y generar descripciones precisas. Sin embargo, no tiene la capacidad de generar imágenes, como lo hacen otras herramientas de IA generativa.

Las principales funciones de Aya Vision incluyen:

  • Análisis de imágenes: Identifica objetos, describe escenas y responde preguntas sobre una imagen.
  • Traducción multilingüe: Puede traducir texto en imágenes y en contenido textual a 23 idiomas diferentes.
  • Generación de subtítulos para imágenes: Ayuda a describir lo que se muestra en una imagen de manera precisa y coherente.

Dos tamaños de modelo: 8B y 32B

Aya Vision viene en dos versiones con distintos tamaños de parámetros:

  1. Aya Vision 8B: Una versión ligera que supera a otros modelos como Qwen2.5-VL 7B, Gemini Flash 1.5 8B y Llama 3.2 11B Vision en pruebas de referencia.
  2. Aya Vision 32B: Una versión más potente que incluso supera a Llama 3.2 90B Vision y Qwen2-VL 72B en pruebas de rendimiento.

Esto significa que Aya Vision no solo es eficiente en cuanto a capacidad de procesamiento, sino que además puede competir con modelos mucho más grandes y sofisticados.

Innovaciones tecnológicas en Aya Vision

Cohere ha implementado múltiples mejoras algorítmicas en Aya Vision para maximizar su rendimiento. Algunas de las estrategias clave incluyen:

  • Uso de anotaciones sintéticas para mejorar la comprensión de imágenes.
  • Expansión de datos multilingües mediante traducción y reformulación.
  • Fusión de múltiples modelos multimodales en distintas etapas del proceso de entrenamiento.

Gracias a estos avances, Aya Vision ha conseguido superar a modelos reconocidos y convertirse en una opción competitiva en el campo de la visión computacional.

Acceso gratuito y uso en WhatsApp

Una de las novedades más interesantes es que Cohere ha hecho que Aya Vision esté disponible en repositorios de código abierto como Kaggle y Hugging Face. Esto significa que cualquier persona con conocimientos en IA puede experimentar con estos modelos sin restricciones.

Además, Cohere ha lanzado una integración en WhatsApp, permitiendo que los usuarios interactúen con Aya Vision a través de un chat. Esto podría ser muy útil para aquellos que quieren obtener información sobre una imagen de manera rápida y sencilla.

Restricciones y licencias

Es importante destacar que Aya Vision está disponible bajo una licencia Creative Commons Attribution Non-Commercial 4.0, lo que significa que su uso comercial está prohibido. Sin embargo, investigadores y desarrolladores pueden utilizarlo en proyectos académicos y de investigación sin problemas.

Impacto y futuro de Aya Vision

Desde WWWhatsnew creemos que Aya Vision representa un gran avance en la inteligencia artificial aplicada a la visión computacional. Su accesibilidad y su capacidad para analizar imágenes con precisión podrían beneficiar a una amplia variedad de sectores, desde la educación hasta la investigación científica.

En el futuro, podríamos ver versiones más avanzadas de Aya Vision que permitan su uso en aplicaciones comerciales o que integren nuevas funcionalidades. Cohere ha demostrado que la IA multimodal tiene un gran potencial, y es probable que más empresas sigan este camino para desarrollar modelos cada vez más sofisticados.