PaliGemma 2: La nueva generación de modelos visión-lenguaje de Google

Google vuelve a marcar un hito con el lanzamiento de PaliGemma 2, un modelo avanzado que combina capacidades de visión y lenguaje para tareas especializadas. Este lanzamiento llega como una evolución del exitoso PaliGemma, el cual ya había establecido un estándar en el campo. Desde WWWhatsnew.com, analizamos cómo esta nueva tecnología transforma la interacción entre imágenes y texto, y por qué podría ser el futuro de la IA multimodal.

Continúa leyendo «PaliGemma 2: La nueva generación de modelos visión-lenguaje de Google»

OpenFlamingo, para procesar y razonar sobre imágenes, videos y texto

El proyecto OpenFlamingo ha anunciado recientemente el lanzamiento de su marco de trabajo de código abierto para entrenar y evaluar modelos visión-lenguaje multimodales (MVMLs) con aprendizaje en contexto. Este proyecto busca desarrollar un sistema multimodal capaz de abordar una amplia gama de tareas de visión-lenguaje y alcanzar la potencia y versatilidad de GPT-4 en el procesamiento de entradas visuales y de texto.

El objetivo de OpenFlamingo es crear una versión de código abierto del modelo Flamingo de DeepMind, que es capaz de procesar y razonar sobre imágenes, videos y texto. Continúa leyendo «OpenFlamingo, para procesar y razonar sobre imágenes, videos y texto»