VLOGGER, lo nuevo de Google para hacer que una fotografía hable

Publicado el

VLOGGER

Proyectos de Inteligencia Artificial que cogen una imagen y la transforman en un vídeo, hay muchos, pero hasta ahora no había visto ninguno así en las manos de Google.

Se trata de VLOGGER (curioso nombre), y llega de las manos de un equipo de investigadores de Google que han decidido dar vida a fotografías estáticas, transformándolas en videos realistas de personas hablando y gesticulando.

De momento es un estudio, con un PDF en este enlace, sin herramienta online disponible, pero ya están saltando las alarmas de todo el mundo al ver las potenciales aplicaciones que van desde la edición de video hasta la creación de asistentes virtuales más expresivos. Pero, como todo avance tecnológico, no está exento de sus controversias, especialmente en torno a los deepfakes y la desinformación.

La clave detrás de VLOGGER es el uso de modelos de difusión, una técnica de aprendizaje automático que ha demostrado ser excepcionalmente buena para generar imágenes realistas a partir de descripciones de texto. Este método se ha ampliado al dominio del video, permitiendo animar fotos fijas de manera convincente. Lo que distingue a VLOGGER de intentos anteriores es su capacidad para trabajar sin necesidad de entrenar el modelo para cada persona específica, manejar todo el cuerpo y adaptarse a una amplia gama de situaciones y expresiones faciales.

El motor detrás de la capacidad de aprendizaje y generación de VLOGGER es MENTOR, un dataset colosal que comprende más de 800.000 identidades distintas y 2.200 horas de video. Esta vasta colección de datos permite al modelo capturar y reproducir la diversidad humana en sus videos, desde diferentes etnias y edades hasta una variedad de expresiones y contextos.

En el PDF que os comentaba antes están todos los detalles técnicos, pero vamos a los prácticos: podremos, cuando esté disponible,  doblar videos automáticamente a otros idiomas, o mejorar la interacción humano-computadora con avatares realistas. De hecho, lo que ha hecho telecinco seguramente se podrá hacer en mucho menos tiempo.

Ahí está la polémica, el problema que tenemos con la creación de deepfakes sofisticados, una problemática que ya nos ocupa bastante en la actualidad.

Aún así, es importante tener en cuenta que los videos generados no mueven a las personas a través de ambientes tridimensionales, ya que se mantienen fondos estáticos. Tampoco se ve todo perfecto, tal y como se aprecia en este vídeo:

@wwwhatsnew

VLOGGER, la nueva herramienta de Google para crear animación a partir de fotos

♬ sonido original – Wwwhatsnew – Wwwhatsnew

La presentación de VLOGGER por parte de Google es un recordatorio del ritmo al que vamos. Las cosas cambian de una semana a otra… Ahora solo nos toca esperar a que esta tecnología se transforme en una herramienta online disponible para todos.