Demostración de cómo clonar voces con la nueva Inteligencia Artificial de OpenAI

Publicado el

clonar voces

Voice Engine es el nuevo proyecto de OpenAI, responsables por ChatGPT y por el impresionante Sora, que hace vídeos realistas a partir de texto. Ahora quieren entrar en el peligroso mundo de la clonación de voces, y lo hacen con un proyecto que, aún no disponible públicamente, ya pone la piel de gallina.

La presentación ha suscitado un torbellino de emociones, desde la excitación hasta la preocupación. Voice Engine es capaz de duplicar la voz de una persona utilizando apenas un fragmento de audio de 15 segundos. Imagina las posibilidades: educadores creando contenidos personalizados para sus alumnos, empresas de entretenimiento produciendo una gama más amplia de contenidos sin depender exclusivamente de actores de voz, o incluso mejorar la accesibilidad para personas con discapacidad visual ofreciéndoles opciones de voz más naturales y variadas.

Aquí os dejo la demostración en vídeo:

No obstante, este avance no está exento de desafíos. El potencial para el uso indebido de estas herramientas en la creación de deepfakes de audio, especialmente en contextos políticos o para propagar desinformación, es una preocupación legítima. Un incidente reciente involucró una llamada robótica que imitaba la voz de un político estadounidense, evidenciando el poder de engaño de estas tecnologías., pero es algo que se puede ver más en el día a día, con adolescentes clonados, sin ir más lejos.

OpenAI ha adoptado una postura de precaución, limitando el acceso a Voice Engine y estableciendo requisitos estrictos, como el consentimiento explícito e informado de las personas cuyas voces se duplican. También han implementado medidas como la marca de agua en las pistas de audio para rastrear su origen y asegurar su uso responsable. El problema es que esos son los límites impuestos hoy por hoy, es cuestión de tiempo, acabará llegando a todas las manos.

La compañía también sugiere medidas para limitar los riesgos asociados con la clonación de voz, tales como eliminar la autenticación basada en la voz para acceder a cuentas bancarias y fomentar una mayor educación sobre los deepfakes de IA. Esto último es muy bonito en el papel.

Está claro que las posibilidades que abre son asombrosas, pero es esencial avanzar con cautela, asegurándonos de que estas poderosas herramientas se utilicen para el bien, evitando al mismo tiempo su potencial para el daño. Por desgracia, no soy tan optimista en este caso.

En openai.com tenéis varios ejemplos de lo que están consiguiendo hacer, de cómo clonan una voz inicial para que diga prácticamente lo que queramos.