El equipo de Google está trabajando en un nuevo proyecto que tiene como objetivo ayudar a los usuarios con problemas de habla.
Teniendo en cuenta el papel que desempeñan los asistentes virtuales y servicios de reconocimiento de voz, están analizando cómo utilizar esta dinámica para mejorar la comunicación e interacción de estos usuarios.
Hasta el momento, las personas con problemas de habla quedan excluidas de estas tecnologías ya que la IA no ha sido entrenada para contemplar diferentes escenarios. Para solucionar este problema, Google desarrolló Parrotron:
Parrotron, un modelo de conversión de voz a voz entrenado de extremo a extremo que mapea un espectrograma de entrada directamente a otro espectrograma, sin utilizar ninguna representación discreta intermedia.[…] Demostramos que este modelo puede ser entrenado para normalizar el habla de cualquier hablante, independientemente del acento, la prosodia y el ruido de fondo..
Siguiendo esa dinámica, esta esta red neuronal puede ayudar a que personas con trastornos de habla (como consecuencia de diferentes enfermedades) a comunicarse y ser comprendidas tanto por otras personas como por asistentes o reconocimiento de voz que utilizan los dispositivos.
El equipo de Google probó esta tecnología con diferentes usuarios, y el sistema Parrotron logró que la tasa de error de la palabra se redujera de 89 a 32%. Un resultado más que promisorio que muestra el potencial de esta herramienta.
Podemos leer todos los pasos de estas pruebas y los detalles técnicos del entrenamiento en el informe compartido por Google.
Imagen de Google