Experimento busca convertir la voz humana en la de un perro, para fines audiovisuales

Publicado el

perro

La conversión de voz es un proceso de tratamiento sonoro en el que se convierte la forma de onda del habla del hablante de origen en una forma de onda del habla distinta, con las características del hablante de destino, pero conservando la información lingüística.

Bajo esta dinámica, un equipo de científicos de Japón, se propuso la tarea de desarrollar un sistema que permita adaptar grabaciones de voz humana como si se tratara de enunciados emitidos por un perro.

“Perros hablando como humanos”, gracias a un proceso de conversión vocal

Una investigación conjunta, desarrollada por profesionales de la Facultad de Ciencias de la Información e Ingeniería de la Universidad Ritsumeikan y de los los laboratorios de ciencias de la comunicación de NTT Corporation, ambos de Japón, se propuso como objetivo indagar la posibilidad de “hacer hablar a los perros”, mediante procesos de conversión vocal.

Para familiarizarse con el principio tras este modelo, se puede tomar como ejemplo el uso del vocoder en la música electŕonica. Bandas como Kraftwerk o Daft Punk, utilizaron este recurso para crear un efecto de “voz robótica”, procesando la voz natural de sus cantantes con el tono electrónico emitido por un sintetizador. Como si se tratara de un promedio entre ambas variables, se obtiene una sonoridad electrónica, pero respetando la vocalización original.

En el paper que documenta este estudio, se presenta un mecanismo que, a partir de muestras vocales de un perro, es posible procesar un fragmento de voz humana para conseguir que suene en la tonalidad del animal, con el propósito de utilizar esto como un recurso audiovisual, para el doblaje de perros en películas o videojuegos. 

ejemplo

Diagrama que resume el funcionamiento del conversor vocal presentado. Fuente: arxiv.org

El procesamiento de la voz en este caso no consta únicamente de un “filtro” que combine ambas variables para obtener un resultado. Bajo una dinámica reducida sólo a aquello, los resultados podrían ser sumamente rústicos. En este caso, el sistema de procesamiento cuenta con un “discriminador de real o falso”, que se encarga de evaluar qué tan verosímil es la reproducción obtenida, en base al análisis de factores como el nivel de similitud que tenga el producto obtenido con el sonido de un perro, la calidad del sonido y si se logra conseguir la claridad necesaria para distinguir lo que se escucha en el audio generado.

Las primeras pruebas realizadas, con distintos métodos de conversión, presentaron resultados principalmente positivos para los dos primeros criterios. Sin embargo, en el nivel de claridad se concentran los mayores desafíos, pues no fue alcanzado siquiera el umbral mínimo esperado.

Si los experimentos perduran, el propósito de “hacer hablar a un perro” que aún no se logra a cabalidad, podría concretarse, permitiendo así generar un nuevo nivel de fantasía en las experiencias cinematográficas o en el mundo de los videojuegos.