Un visitante del Museo Dalí en San Petersburgo, Florida, toca el timbre junto a una pantalla oscura del tamaño de una persona. Aparece una figura oscura, con un traje elegante y un bigote que parece dibujado con un lápiz. Lentamente deja su caballete y se dirige hacia ella hacia la luz.
Es, por supuesto, Salvador Dalí, quien mira al visitante y habla sobre su arte y su museo. Cuando el visitante está a punto de irse, aparece nuevamente. Él le pregunta si le gustaría tomarse una foto, sacando de inmediato su teléfono móvil para tomarse una selfie con ella.
Lo fascinante de este encuentro es que en realidad es el mismo Dalí. ¿Cómo es posible que el gran surrealista español pueda interactuar con miembros del público años después de su muerte, incluso usando un teléfono que no existía cuando estaba vivo? Bienvenido al mundo de los deepfakes: una tecnología inquietante, con un alto potencial para engañar y también, algunos usos inesperadamente positivos.
Los deepfakes son un nueva y poderosa técnica para crear contenido de audio o video de apariencia realista, pero a fin de cuentas falso. Para darle vida a Dalí, el museo utilizó el aprendizaje profundo (deep learning) para permitir que una computadora intercambiara sin problemas la cara de un actor vivo que se vestía y se comportaba como Dalí, con una imagen generada digitalmente de la cara y las expresiones del artista.
Esto implica un «proceso de entrenamiento», en el que los algoritmos avanzados de aprendizaje automático analizan las imágenes de Dalí y el actor para aprender a generar nuevas imágenes faciales de ambos hombres. También aprende a tomar una imagen existente de cualquiera de los hombres y generar una imagen del otro que coincida perfectamente con las expresiones faciales y la postura de la cabeza del primero.
Esto hace posible generar caras de Dalí que coincidan con los movimientos del actor, que luego se insertan automáticamente en el nuevo video, creando una ilusión del propio Dalí. Hay más detalles aquí, para quien le interese.
La oportunidad toca a tu puerta
Hasta la fecha, la mayoría de los productores de deepfakes han explotado el lado oscuro de la tecnología. Esto ha variado desde la sátira, como este clip del día de los Inocentes que muestra a Mark Zuckerberg anunciando que está eliminando Facebook; a imágenes de estrellas de Hollywood que dañan la reputación supuestamente protagonista de películas pornográficas; al fraude, como imitando la voz de un director ejecutivo para solicitar la transferencia de una gran suma de dinero.
Los riesgos de los deepfakes son innegables. Sin embargo, el ejemplo de Dalí ilustra que es imposible ser blanco y negro sobre esta tecnología. En nuestra investigación, agrupamos los deepfakes en cinco categorías: intercambio de voz, conversión de texto a voz, intercambio de caras en video, títeres de cuerpo completo y sincronización de labios. En cada categoría, vemos oportunidades comerciales claras. Algunos aún deben materializarse, mientras que otros ya se están realizando.
1. Ventriloquismo 2.0
El intercambio de voz permite modificar la voz de una persona o hacer que imite la de alguien más. Se puede manipular para que suene más joven o más viejo, como hombre o mujer y con diferentes dialectos o acentos. Posibles usos podrían ser para dar vida a un narrador de audiolibros que habla en las voces de diferentes personajes, o para usar a una persona famosa como narrador sin que tenga que tomarse la molestia de leer la historia completa.
Esto también abre posibilidades fascinantes para asistentes virtuales como Siri. En lugar de tener que grabar actores de voz con diferentes acentos y géneros, el intercambio de voz de audio hace posible hacer esto con una sola muestra: ¿alguien siente que se acerca una aplicación de gran éxito?
2. Trayendo de regreso a las voces
Ha sido posible durante muchos años hacer que una computadora hable escribiendo texto en una aplicación. Ahora existe la tecnología deepfake para hacer esto con la voz de una persona en particular, incluso cuando no han grabado previamente las palabras en cuestión. Esto se está convirtiendo en una tecnología que cambia la vida de las personas que han perdido la capacidad de hablar de manera inteligible, como las que han tenido derrames cerebrales o tienen una enfermedad progresiva, como la esclerosis lateral amiotrófica, tal como muestra el clip a continuación.
Otros posibles usos de esta tecnología de audio de texto a voz incluyen la corrección de palabras mal pronunciadas en una voz en off en lugar de tener que hacer que la persona vuelva a grabarla.
3. “¿Me estás hablando?”
Como vimos con el ejemplo de Dalí, el intercambio de caras de video puede reemplazar la cara de una persona en un video con la cara de otra persona. Esto tiene un gran potencial en las películas.
Por ejemplo, un artista profesional de deepfake ha demostrado cómo se podrían haber utilizado técnicas similares al Museo Dalí para degradar a Robert De Niro en The Irishman, en lugar del costoso y lento CGI que ayudó a impulsar el costo total de producción de la película a $175 millones de dólares. El siguiente clip muestra cómo la tecnología deepfake puede lograr una calidad similar. Otro posible uso de esta tecnología es como doble de actuación, para registrar acrobacias más realistas.
4. Títeres de cuerpo completo
Los títeres de cuerpo completo pueden transponer el movimiento del cuerpo de una persona al de otra. Algunos usos posibles incluyen videojuegos más inmersivos en los que los jugadores pueden insertarse en la acción, con sus propias características de marcha y movimiento; y películas donde los actores que no son bailarines pueden aparentemente bailar, usando imágenes de bailarines profesionales.
5. Adiós, subtítulos
El lip sync puede cambiar los movimientos de la boca y las palabras habladas en un video. Pronto será posible realizar traducciones rentables y de alta calidad de películas, programas de televisión y otros videos. Un algoritmo entrenado imitaría la voz del actor original pero en un idioma diferente, con el lip sync sincronizado con las nuevas palabras.
Entonces, aunque está claro que los deepfakes pueden y se están utilizando de manera perjudicial, la misma tecnología de aprendizaje profundo también está abriendo muchas aplicaciones comerciales innovadoras. Muchas posibilidades creativas y productivas se están volviendo evidentes, y sin duda muchas otras que las personas ni siquiera han visto todavía.
Autores: Linda W Lee, profesora titular de marketing, Universidad de Nottingham Trent; Jan Kietzmann, profesor asociado, Universidad de Victoria, y Tim C Kietzmann, profesor asistente, Universidad de Radboud.
Este artículo fue publicado originalmente en The Conversation y lo republicamos bajo una licencia Creative Commons. Puedes leer el artículo original (en inglés) aquí.