Análisis avanzado de videos con la nueva IA de Google

Como ya os he comentado hace unas horas, Google ha dado un paso gigante hacia adelante en el análisis de contenido multimedia con el lanzamiento de su última versión de Gemini 1.5 Pro. Durante la conferencia de desarrolladores Google I/O 2024, se presentó esta actualización que promete revolucionar cómo interactuamos y procesamos grandes volúmenes de información digital, especialmente videos.

Gemini 1.5 Pro ha duplicado su capacidad para procesar datos, alcanzando un límite de 2 millones de tokens. Esto es equivalente a unas dos horas de video o alrededor de 1.4 millones de palabras. Este aumento representa una mejora significativa frente a modelos anteriores y sitúa a Gemini en la cima de las IA disponibles comercialmente en términos de capacidad de entrada.

Este avance no solo se trata de números. El poder procesar tal cantidad de información sin perder el contexto es crucial para mantener una conversación coherente o analizar datos complejos sin desviarse del tema principal.

Capacidades extendidas en el análisis de videos

El potencial para analizar videos es particularmente emocionante. Imagina poder cargar dos horas de metraje y obtener un análisis detallado, identificación de patrones o incluso resúmenes precisos sin la necesidad de intervención humana. Esto es ideal para profesionales del marketing, creadores de contenido y analistas multimedia, quienes podrían optimizar su trabajo y obtener insights más profundos y significativos de grandes volúmenes de video rápidamente.

La nueva versión no solo es una herramienta para análisis de video. Gemini 1.5 Pro también ha sido optimizado para tareas de generación de código, razonamiento lógico y comprensión multimodal, lo que incluye audio e imágenes, abriendo un abanico de posibilidades en diversas aplicaciones.

Para los desarrolladores interesados, Google ha abierto una lista de espera para probar esta nueva versión a través de su herramienta Google AI Studio. La versión con capacidad para 1 millón de tokens estará disponible de manera general en breve.

Nuevas características para desarrolladores

Google no se ha detenido en mejorar la capacidad de sus modelos. También ha introducido características como el caching de contexto, que permite a los desarrolladores almacenar grandes cantidades de información accesible rápidamente y a menor costo. La API Batch, por su parte, ofrece una forma más económica de manejar clasificaciones, análisis de sentimientos y generación de descripciones mediante solicitudes múltiples en una única petición.