VideoPoet de Google Research: Avance en la generación de vídeo con IA

Hablemos hoy del proyecto VideoPoet, de Google Research, un innovador modelo de lenguaje, enfocado en la generación de video, que ha mostrado algunos ejemplos impresionantes.

Desde hace años sigo de cerca los avances en inteligencia artificial (IA), especialmente en el ámbito de los modelos de lenguaje y generación de contenido. He analizado tendencias, entrevistado expertos y examinado innumerables desarrollos en IA, y realmente VideoPoet me ha sorprendido.

Características Clave del VideoPoet

VideoPoet representa un salto cualitativo en cuanto a la generación de contenido audiovisual, tal y como se puede comprobar en los ejemplos existentes en sites.research.google/videopoet. Aquí están sus características más destacadas:

Multifuncionalidad: VideoPoet se destaca por su habilidad para ejecutar múltiples tareas relacionadas con el video, incluyendo la conversión de texto a video, imagen a video, y la generación de audio a partir de videos.
Eficiencia en el Entrenamiento: Utiliza mejoras de eficiencia ya probadas en el entrenamiento de modelos de lenguaje grandes, lo que representa un avance importante en términos de economía de recursos.
Tecnología Autoregresiva y Tokenización: Emplea un enfoque autoregresivo y tokenizadores especializados para manejar diferentes modalidades como video, imagen y audio, lo que facilita la generación de contenido diverso y complejo.
Control y Flexibilidad en la Generación: Permite una edición interactiva y un control detallado sobre la generación de video, incluyendo la manipulación de objetos y el control del movimiento de la cámara.

Uno de los aspectos más fascinantes de VideoPoet son sus aplicaciones prácticas. Por ejemplo, puede generar videos a partir de simples descripciones textuales, como un mapache bailando en Times Square. Además, es capaz de animar imágenes estáticas y de aplicar estilos visuales específicos a los videos generados. La capacidad de generar audio a partir de clips de video sin guía textual abre un abanico de posibilidades en la producción de contenido multimedia.

En términos de evaluación, VideoPoet ha demostrado ser altamente eficaz. Los usuarios han mostrado una preferencia notable por los videos generados por VideoPoet en comparación con otros modelos, tanto en fidelidad al texto como en la interesanteza del movimiento. Esto sugiere que estamos ante un modelo con un potencial enorme para cambiar la forma en que se produce contenido audiovisual.

Fijaos que también es posible cambiar el estilo de un vídeo existente:

Veo que no solo mejora la eficiencia en la generación de contenido, sino que también nos permite explorar nuevas formas de expresión artística y comunicativa. Sin embargo, es importante mantener una visión equilibrada y crítica, reconociendo que, aunque prometedor, VideoPoet es un paso en un camino evolutivo más amplio de la IA.

De momento lo han presentado como un modelo en el que están trabajando, no es posible usarlo como herramienta independiente ni probarlo con nuestros propios prompts. Esta situación es común en el campo de la investigación en inteligencia artificial, donde los modelos avanzados suelen pasar por extensas fases de desarrollo y pruebas internas antes de ser accesibles al público o a los profesionales del sector.

El enfoque actual parece estar centrado en la mejora y refinamiento del modelo, asegurando su eficiencia, precisión y la responsabilidad ética en su funcionamiento. Es probable que en el futuro, una vez que el modelo haya sido suficientemente probado y optimizado, Google Research considere hacerlo accesible de alguna forma para los usuarios o desarrolladores externos, pero hasta ese momento, nuestra comprensión y conocimiento de VideoPoet se basará principalmente en los informes y publicaciones proporcionados por el equipo de Google Research.