VALL-E, para crear voces a partir de un poco de audio

Si la IA de crear texto y la de crear imágenes fueron protagonistas de 2022, parece que este 2023 se incluirá a la creación de audio en el podium.

Así lo parece después de la noticia del lanzamiento de VALL-E, una nueva herramienta de Microsoft que será capaz de crear voces a partir de un audio que contenga una pequeña muestra.

De momento se trata de una demostración de lo que es capaz Microsoft con la inteligencia artificial. Usa una herramienta que transforma de texto a voz con un modelo llamado VALL-E, pero lo sorprendente es que puede simular la voz de alguien a partir de una muestra de audio de solo tres segundos, ideal para los creadores de Fake News.

Es capaz de hacer coincidir con el timbre y con el tono emocional del hablante, añadiendo incluso la acústica de una habitación.

Lo presenta como un «modelo de lenguaje de códec neuronal», y en el artículo indican que lo han entrenado con 60 000 horas de habla en inglés de más de 7000 personas diferentes.

Hay ejemplos de lo que consiguen hacer en la página de VALL-E de Github, donde se puede ver como la persona solo tiene que hablar durante tres segundos para que el modelo imite su voz.

En algunos casos sí se nota que hay una máquina por detrás, pero en otros hay un reaalismo tan impresionante que deja claro que estamos frente a un gran avance a la hora de crear audio realista a partir de voces.

¿Podremos leer textos con la voz de Morgan Freeman? Seguramente sí, pagando los derechos correspondientes, claro.

Ahora están trabajando para mejorar el rendimiento del modelo trabajando con la prosodia, estilo de habla y similitud del hablante.

De momento el código no es abierto, ya que algo así podría ser un peligro enorme en manos de quien solo piensan en hacer daño.