Vídeo a partir de texto, Google nos enseña de lo que es capaz

Ya hemos visto que la IA es capaz de generar imágenes extremadamente realistas a partir de una frase. Basta con preguntar a imgcreator algo como «Galaxias dentro de los ojos de un gato» para que se genere la imagen que veis abajo. En este ejemplo tenemos a imgcreator a la izquierda y a Midjourney a la derecha.

En este sector, hay otras muchas opciones, desde DALL-E a Stable Diffusion, pasando por Midjourney, es un no parar.

Pero el caso es que el tema no para en la imagen, hay proyectos que pretenden crear vídeos a partir de descripciones de texto, y tanto Facebook (Meta, de hecho), como Google, están trabajando en el asunto.

Google presentó recientemente sus avances en el sector. Han hecho una solución llamada Image Video, una evolución de su Image que incorpora componentes nuevos para convertir cuadros estáticos en movimientos.

Los resultados de momento no se ven muy naturales, hay varios ejemplos en este enlace. Por lo visto no siguen reglas estrictas de composición temporal y espacial, principalmente cuando hablamos de movimiento de personas y animales reales, ya que hay cuerpos y extremidades que complican el tema, pero no deja de ser impresionante como consiguen crear animaciones a partir de frases como «Un gato de pelo corto saltando sobre un sofá».

El modelo produce 16 fotogramas de 3 fps con una resolución de 24×48, y luego el resultado se ejecuta a través de varios modelos de súper resolución de IA, que aumentan esta salida a 128 cuadros de metraje de 24 fps a una resolución de 1280×768. Creen que ahí está el futuro de la creación de contenido para el mundo del marketing, aunque también abre las puertas a sectores más oscuros, sin duda.

Sobre la finalidad, Google indica:

Los modelos que generan video se pueden usar para impactar positivamente en la sociedad, por ejemplo, amplificando y aumentando la creatividad humana, sin embargo, estos modelos generativos también pueden ser mal utilizados, por ejemplo, para generar contenido falso, odioso, explícito o dañino.

Es por ello que reconocen que quedan varios desafíos importantes, tanto en el mundo de la seguridad como en el de la ética.

Podéis ver el estudio en PDF. Seguiremos informando a medida que avance esta impresionante tecnología.