Cada vez más los deepfakes han pasado a convertirse en una herramienta de mayor uso en la internet por parte de personas que con algo de habilidad han logrado replicar a la perfección el aspecto de figuras famosas como Mark Zuckerberg para una broma del Día de los inocentes, así como el de algunas estrellas de Hollywood encarnando personajes icónicos del cine interpretado por otros actores.
Junto a estos, existen deepfakes de solo audio en los que una inteligencia artificial replica la voz de alguien que luego es usada para expresar comentarios u opiniones relativas a cualquier tema sin necesidad de que estos provengan de la persona dueña de la voz.
Es así como un canal de YouTube llamado Vocal Synthesis se ha valido de esta herramienta para crear deepfakes de audio interesantes como el de Barack Obama dando lectura a una obra de H.P Lovecraft, Frank Sinatra cantando el clásico de ABBA «Dancing Queen» o Jay-Z rapeando la famosa frase de Hamlet «To be or not to be».
Y es que ha sido este cantante (o sus representantes legales) quien parece no sentirse halagado con la iniciativa de este canal de usar su voz, razón por la cual tomó la decisión de ejercer acciones legales en contra de Vocal Synthesis a través de su agencia de derechos Roc Nation para que eliminen el video de su canal apelando a la violación de derechos de autor. Esta acción por parte de Jay-Z representa la primera en la que un artista demanda a un creador de deepfakes por el uso no autorizado de su voz.
Al parecer todo este asunto fue propiciado por la aparición de un artículo publicado por el cofundador del festival de música XOXO en su blog Waxy donde señalaba el esfuerzo realizado por Vocal Synthesis en la creación de un deepfake donde se escuchaba la voz de Jay-Z leyendo la famosa obra de Shakespeare.
As far as I know, this is the first time a musician's filed a copyright claim for deepfaked vocals, and the first time YouTube has removed a video for AI voice impersonation.
— Andy Baio (@waxpancake) April 28, 2020
El post captó la atención de representantes de Roc Nation quienes tomaron acción inmediata demandando a YouTube, alegando infracción de copyright.
Esta situación obligo a YouTube a eliminar el video de su plataforma, aunque poco tiempo después y de forma inesperada el mismo fue restablecido.
Ante esta acción, el autor de Vocal Synthesis, quien prefirió mantener en el anonimato sus declaraciones, ha expresado su desconcierto tras no saber si ha sido YouTube o la propia Roc Nation quien ha revertido la decisión de remover el video de su canal.
Cabe destacar que para la creación de este deepfake de audio Vocal Synthesis recurrió al uso del motor open source Tacotron 2, un software de Google cuya IA permitió que pudiera seleccionarse la canción de Jay-Z y obtener su voz para luego hacer que leyera un texto de Shakespeare introducido de manera escrita.