Crean sistema de aprendizaje profundo capaz de convertir las voces de cantantes

Un equipo de científicos pertenecientes a Facebook AI Research y a la Universidad de Tel Aviv han logrado crear un sistema de aprendizaje profundo capaz de realizar conversiones de la voz de un cantante en la voz de otro para misma canción.

Lo más curioso de todo es que el sistema propuesto no necesita supervisión, esto significa que no se basará en las letras de las canciones ni del tipo de características fonéticas, ni notas y ni muestras coincidentes entre los cantantes, según señalan en un documento.

Puede realizar conversión de voces en hasta 30 minutos

Los autores de las investigaciones exponen en un un documento que el sistema de aprendizaje profundo «no está no está condicionada por el texto ni por las notas (y no) requiere datos de entrenamiento paralelos entre los distintos cantantes, ni emplea una transcripción del audio para el texto o para las notas musicales.»

Indican además que su modelo de aprendizaje profundo aprendió a realizar conversiones de voz entre cantantes de un periodo de tiempo de 5 a 30 minutos gracias, entre otros aspectos, a la aplicación del nuevo esquema de aumento de datos, al método de capacitación empleado, así como a protocolos basados en la traducción inversa.

Como resultado, en las pruebas que han ido desarrollando, obteniendo que las voces convertidas de los cantantes suenan de forma natural y totalmente reconocibles como cantantes.

Todos los detalles técnicos están expuesto en dicho documento, que se puede descargar desde la página de arXiv.org publicada hace unos días.