datasets multimodales | WWWhat's new

El proyecto OpenFlamingo ha anunciado recientemente el lanzamiento de su marco de trabajo de código abierto para entrenar y evaluar modelos visión-lenguaje multimodales (MVMLs) con aprendizaje en contexto. Este proyecto busca desarrollar un sistema multimodal capaz de abordar una amplia gama de tareas de visión-lenguaje y alcanzar la potencia y versatilidad de GPT-4 en el procesamiento de entradas visuales y de texto.

El objetivo de OpenFlamingo es crear una versión de código abierto del modelo Flamingo de DeepMind, que es capaz de procesar y razonar sobre imágenes, videos y texto. Continúa leyendo «OpenFlamingo, para procesar y razonar sobre imágenes, videos y texto»