La voz sintética creada por la IA de Google suena casi humana

Publicado el

Tacotron 2 es la nueva arquitectura de redes neuronales desarrollada por Google, que lleva la generación de voz sintética al siguiente nivel.

Tacotron 2 combina funciones de proyectos anteriores de Google, como son WaveNet y Tacotron, cuyo objetivo es entrenar a las maquinas para que hablen como los humanos.

La idea con Tacotron 2 , es lograr que la voz sintetizada pueda por ejemplo, producir un discurso fluido y natural, a partir de texto, sin tener que entrenarse con gran cantidad de metadatos sobre lenguaje y gramática, para que la dinámica funcione correctamente.

Tacotron 2

El equipo de Google ha compartido una serie de audios en GitHub, donde nos reta a identificar cuál es la voz sintetizada, y la voz humana, ya que los resultados que están logrando con Tacrotron, son asombrosos. Podemos encontrar los audios que corresponden a este estudio en el siguiente enlace.

En los audios notaremos, que si bien, no puede cambiar la expresividad, utiliza muy bien las variantes del texto para cambiar la entonación, por ejemplo, al leer una pregunta, o al cambiar de ritmo con los signos de puntación.

Si bien, aún tienen mucho para mejorar, es notable la similitud con la voz humana, dejando muy lejos la tradicional voz robotizada. Podemos ver todos los aspectos técnicos de este nuevo sistema de Google en el siguiente enlace.