Proyecto de accesibilidad de Google inicia investigación en español para mejorar su reconocimiento de voz

El proyecto Euphonia de Google es una iniciativa de investigación en IA que busca dotar a sus sistemas de reconocimiento de voz con la capacidad de reconocer los enunciados de personas con dificultades en el habla.

Hoy, en el marco del Día Mundial de la Concienciación sobre la Accesibilidad, fue anunciada la ampliación de esta investigación, que inicialmente cubría sólo el inglés, a pruebas en francés, hindi, japonés y español.

Google quiere que su sistema de reconocimiento de voz sea amigable con personas que tienen dificultades del habla

El Proyecto Euphonia comenzó a gestarse en 2019 como una iniciativa de investigación que busca conseguir que las tecnologías de reconocimiento de voz sean más accesibles para las personas afectadas por deficiencias del habla.

Los algoritmos que dan vida a cualquier asistente controlado mediante comandos de voz, están capacitados para reconocer enunciados emitidos con una dicción normal, tras haber sido entrenados justamente con muestras vocales que cumplen con este criterio.

Por razones de salud, muchas personas no pueden modular con facilidad. Muestras de voz de este tipo, hasta ahora no habían sido consideradas en estos desarrollos, generando como consecuencia la imposibilidad para las personas afectadas de interactuar con los mencionados asistentes virtuales.

La generación de un conjunto ampliamente variado de expresiones orales, incluyendo muestras de personas con dificultades del habla, es el propósito perseguido por el Proyecto Euphonia, para acercar estas tecnologías a más personas. Desde el inicio de esta investigación, los voluntarios del proyecto han aportado más de 1.600 horas de muestras de habla, creando el mayor conjunto de datos de habla desordenada conocido en el mundo, según afirman desde Google.

Estas contribuciones han permitido a los equipos de Voz e Investigación de Google la ejecución de investigaciones de vanguardia relativas al aprendizaje automático aplicado al reconocimiento del habla. Esto contempla la posibilidad de crear modelos personalizados, capaces de comprender a las personas individualmente y el reconocimiento de voz a voz, que permite la repetición de palabras con una voz clara sintetizada.

“Estamos entusiasmados con el éxito de nuestra investigación en inglés y esperamos poder hacer un progreso similar en otros idiomas, empezando por el francés, el hindi, el japonés y el español, pero necesitamos tu ayuda. A través de nuestro trabajo hemos aprendido que cuantas más muestras de habla expongamos a nuestros modelos de reconocimiento del habla, más personas podrán ser potencialmente comprendidas”, comentó Pan-Pan Jiang, gerente técnico del programa, a través del comunicado de la compañía.

Para el público hispanoparlante se habilitó un formulario de interés, mediante el que se invita a participar de este proyecto a las personas que tienen dificultades para hacerse entender hablando. La colaboración solicitada consta de la grabación de frases, que pueden facilitarse en conjuntos básicos de 30 frases o en un conjunto completo de aproximadamente 1300.

Esta iniciativa busca acercar la tecnología a un público más amplio, aportando adicionalmente recursos prácticos para aquellas personas que enfrentan a diario problemas de dicción.