Cómo clonar voces y crear efectos de sonido con Audiobox de Meta

Publicado el

Recientemente, Meta Platforms, conocida por ser la empresa detrás de gigantes como Facebook e Instagram, ha dado un paso significativo en el ámbito de la inteligencia artificial con el lanzamiento de Audiobox, un programa avanzado para la clonación de voz y generación de efectos sonoros.

He seguido de cerca esta innovación, y quisiera compartir con vosotros mi análisis y perspectiva sobre esta herramienta que está empezando a llamar la atención en el sector tecnológico.

La clonación de voz no es un concepto nuevo en el mundo tecnológico. Empresas como ElevenLabs ya han explorado este campo. Sin embargo, lo que hace destacar a Audiobox es su capacidad para replicar con precisión las características únicas de la voz humana: el tono, el timbre, los ritmos y las pronunciaciones particulares. Esto abre un abanico de posibilidades, desde la creación de contenidos personalizados hasta aplicaciones en inteligencia artificial más avanzadas.

Nada más entrar en audiobox.metademolab.com, me encuentro con esto:

Audiobox de Meta

 

Pulso en Try demos y me lleva a todo lo que puede hacer:

Audiobox de Meta

 

En la primera opción me hará leer un texto, en inglés, para que entienda cómo es mi voz. Una vez lo ha reconocido, podrá crear cualquier frase usando la voz anterior. Podemos grabar el texto con nuestra voz o usar voces ya predefinidas, pero si queremos clonar, tendremos que seleccionar la primera opción.

Audiobox de Meta

Cuando ya conoce mi voz, le digo que lea la frase que veis en la imagen superior, y este es el resultado:

 

Como veis, ha replicado hasta mi acento al hablar inglés.

Si voy a la parte de crear efectos de sonido, tengo una experiencia aún más sencilla.

Audiobox de Meta

 

Le digo el sonido que quiero generar (un gato que quiere jugar) y me genera los archivos de audio que veis abajo.

Audiobox de Meta
Audiobox de Meta

Audiobox

 

También podemos pedirle que diga frases a partir de texto, indicando efectos como «hazlo como si estuvieras en una catedral» o, como yo le puse «hazlo como si estuvieras dentro del baño». El resultado es este:

 

Lo que realmente me parece interesante es la tecnología subyacente de Audiobox. Utiliza una técnica de autoaprendizaje supervisado (SSL), una metodología de aprendizaje automático donde los algoritmos de inteligencia artificial generan sus propias etiquetas para datos no etiquetados. Esta aproximación es crucial, ya que permite el entrenamiento con una variedad más amplia de datos, algo esencial en un campo tan diverso como el audio.

Para entrenar a Audiobox, Meta ha utilizado una vasta colección de datos: 160.000 horas de voz, 20.000 horas de música y 6.000 horas de muestras de sonido. Este conjunto de datos es notable no solo por su tamaño sino también por su diversidad, incluyendo voces y sonidos de más de 150 países y en más de 200 idiomas.

Como veis, Meta ha puesto a disposición del público demos interactivos para que los usuarios puedan probar la tecnología por sí mismos. Esta es una oportunidad excelente para entender mejor el potencial de Audiobox, permitiendo a los usuarios clonar su propia voz o generar nuevos sonidos a partir de descripciones textuales.

Es importante mencionar que, a pesar de su potencial, Audiobox viene con ciertas restricciones. Por el momento, su uso está limitado a fines no comerciales y está restringido en ciertos estados de EE.UU. debido a leyes locales. Además, a diferencia de otros proyectos de Meta, Audiobox no es de código abierto, lo que plantea preguntas sobre su accesibilidad futura y el control sobre la tecnología.

Este proyecto de Meta plantea interrogantes importantes sobre la ética en el uso de IA, especialmente en lo que respecta a la procedencia de los datos y los derechos de autor. La capacidad de replicar voces humanas con tal precisión lleva consigo una gran responsabilidad y desafíos legales que aún están por explorarse completamente.