Microsoft ha dado un paso significativo hacia la creación de avatares virtuales que prometen revolucionar la manera en que interactuamos digitalmente. El modelo VASA-1 se presenta como una solución pionera en la generación de caras parlantes a partir de imágenes estáticas y clips de audio, destacándose por su capacidad para emular de manera realista los comportamientos conversacionales humanos.
El modelo VASA-1 está diseñado para operar dentro de un espacio latente facial, lo cual permite la generación de dinámicas faciales y movimientos de cabeza de manera holística. Esta innovación es fundamental para el desarrollo de un espacio latente desacoplado y expresivo, usando videos como base para su aprendizaje. El rendimiento de VASA-1 ha sido validado mediante extensas pruebas, superando a los métodos anteriores en calidad de video, realismo de las dinámicas faciales y movimientos de cabeza. Además, ofrece soporte para la generación en tiempo real de videos a 512×512 píxeles a 45 FPS en procesamiento por lotes y hasta 40 FPS en modo de transmisión en línea, con una latencia de arranque de solo 170 milisegundos.
Pero mejor mirad el resultado en el vídeo:
El modelo permite una gran personalización a través de controles opcionales que ajustan la dirección principal de la mirada, la distancia de la cabeza y las variaciones emocionales. Esto mejora la interactividad y enriquece la experiencia al permitir generar resultados bajo diferentes direcciones de la mirada y escalas de distancia de la cabeza, así como diferentes estados emocionales como neutralidad, felicidad, enfado y sorpresa.
Una característica notable de VASA-1 es su capacidad para manejar entradas que no formaban parte de su conjunto de datos de entrenamiento, como fotos artísticas y audios en distintos idiomas. Esta habilidad de generalización sugiere un amplio rango de aplicaciones futuras, desde la creación de contenidos educativos multilingües hasta la producción de materiales de entretenimiento personalizados. Comparativamente, tecnologías similares han sido desarrolladas por empresas como DeepMind y OpenAI, aunque con enfoques y aplicaciones variadas en la generación de contenido sintético. Tenéis varias apps para pasar de imagen a video en este enlace.
Microsoft está profundamente comprometida con el desarrollo responsable de IA, especialmente dado el potencial de mal uso en la creación de deepfakes. El equipo detrás de VASA-1 está explorando activamente cómo sus avances podrían contribuir a la detección de falsificaciones, asegurando que la tecnología se aplique de manera que fomente el bienestar humano sin engañar ni dañar.
El desarrollo de VASA-1 por parte de Microsoft demuestra un avance tecnológico impresionante, pero volvemos a lo mismo: es fundamental que todo esto se use para el bien, porque para el mal ya tenemos bastantes deepfakes en el mundo.
Tenéis el estudio en microsoft.com