Wav2Lip, una herramienta que simplifica la creación de deepfakes

Publicado el

Deepfake

Hemos sido testigos de la gradual explotación de nuevas técnicas para crear deepfakes, piezas audiovisuales digitalmente intervenidas, con resultados que oscilan entre lo rústico y cómico, hasta peligrosas reproducciones que difícilmente pueden distinguirse como falsas.

En esta ocasión, revisaremos una herramienta que permite editar clips con esta técnica, obteniendo buenos resultados. Además se puede probar directamente desde la web, aunque sólo con clips cortos.

Se trata de Wav2Lip, una herramienta disponible en GitHub como parte de una investigación publicada en un paper titulado “A Lip Sync Expert Is All You Need for Speech to Lip Generation In the Wild”.

Con Wav2Lip pueden sincronizarse, con alta precisión, clips de vídeo con una fuente externa de voz. Puede funcionar con cualquier identidad, idioma y voz, aceptando incluso animaciones generadas por computadora y voces sintéticas.

Esta utilidad puede aprovecharse desde distintos niveles de uso, pues se encuentran disponibles códigos de entrenamiento completos, códigos de inferencia y modelos previamente entrenados. Adicionalmente, también está disponible mediante Google Colab Notebook, para trabajar en su código directamente desde la nube y con la posibilidad de hacerlo en equipo, de forma similar a los Documentos de Google.

Si dominas Phyton, puedes acceder a su código para aprovechar, entre otras posibilidades, calcular las métricas informadas en el documento. Si te consideras ajeno a este lenguaje, en la misma página de GitHub de este proyecto se presenta un instructivo de uso, detallado paso a paso.

Dado el creciente interés que han generado los vídeos intervenidos mediante técnicas de deepfake, el código de este proyecto se encuentra disponible bajo licencia MIT para su reutilización en otros proyectos. La única exigencia para su uso en estos contextos, especificada en el mismo sitio del proyecto, es hacer referencia al estudio bajo el que se enmarca la publicación de esta herramienta. De esta forma, además de ampliar el alcance de la investigación asociada al proyecto, se abre también una nueva ventana de posiblidades para los desarrolladores del área.

A pesar de lo complejo que pueda parecer esto para quien no domine aquellas destrezas, existe la posibilidad de realizar algunas pruebas desde la web. En el sitio de Wav2Lip puedes realizar algunas pruebas con los clips que ahí disponen o cargando tus propios clips de vídeo y voz, limitados en este caso a fragmentos de hasta 20 segundos.

Haciendo uso de esta herramienta pueden obtenerse resultados interesantes, como este montaje de escenas de conocidas películas con la canción All Star de Smash Mouth.

Como puede apreciarse, efectivamente esta herramienta cuenta con la capacidad de adaptarse a distintas escenas, con resultados realmente buenos.

Si recapitulamos entre lo que hemos podido conocer de deepfakes hasta ahora, por lo general su creación dependía del uso de  destrezas audiovisuales avanzadas o de software complejo a nivel de usabilidad y con resultados de calidad variable. En este caso, la simplicidad de su uso se combina con la calidad de sus resultados.

El uso de estas herramientas está sujeto a la responsabilidad ética individual de quien las tenga al frente. Mientras no se utilice con fines maliciosos, como la difamación o la desinformación, esta utilidad puede brindar un interesante recreo audiovisual.

Justamente, las noticias falsas potenciadas por este tipo de clips intervenidos, más otros escenarios complejos, como la intervención de escenas pornográficas, han dotado de una fama no muy auspiciosa a los deepfakes. Sin embargo, el mal uso de una tecnología no la hace mala en sí misma, quedando demostrado en este mismo caso que también se le puede dar un uso más provechoso, principalmente para potenciar el área audiovisual.