La Inteligencia Artificial de Google consigue crear vídeos a partir de dos fotos

Si le damos una foto de inicio y una foto de fin a Google, su Inteligencia Artificial es capaz de crear el vídeo completo frame por frame.
El sistema es capaz de deducir todo lo que ha ocurrido para que la primera imagen se transforme en la última, creando secuencias de video «plausibles» desde solo dos fotogramas, un proceso conocido como «interrelación».
Este sistema podría servir para transformar cómics en animaciones, revolucionando completamente el sector. Aún está lejos para tener resultados perfectos, pero podría alimentarse con pares de viñetas para crear el vídeo correspondiente y juntar así todos los vídeos creados.

Está compuesto por un decodificador de imagen convolucional 2D, un generador de representación latente convolucional 3D y un generador de video. El decodificador de imágenes asigna cuadros de videos de destino a un espacio latente, mientras que el generador de representación latente aprende a incorporar la información contenida en los cuadros de entrada. Finalmente, el generador de video decodifica la representación latente en cuadros de video.

Los investigadores obtuvieron videos de tres conjuntos de datos y los muestrearon a una resolución de 64 x 64 píxeles. Cada muestra contenía 16 cuadros en total, 14 de los cuales fue creado por el sistema AI. Los investigadores ejecutaron el modelo 100 veces para cada par de cuadros de video y repitieron el proceso 10 veces para cada variante de modelo y conjunto de datos, algo que duró 5 días con una tarjeta gráfica Nvidia Tesla V100.
El estudio puede consultarse en este PDF, donde pueden verse imágenes como la de la captura superior.