SQuId: El revolucionario modelo de Google para evaluar la síntesis de voz en múltiples idiomas

En el mundo de la tecnología, la capacidad de evaluar la calidad de la síntesis de voz en varios idiomas es un desafío constante. Google ha dado un paso adelante en este campo con el desarrollo de un modelo innovador conocido como SQuId (Identificación de Calidad de Habla).

¿Qué es SQuId?

SQuId es un modelo de regresión con 600 millones de parámetros que mide cuán natural suena un fragmento de habla. Este modelo se basa en mSLAM, un modelo preentrenado de texto a voz desarrollado por Google. Ha sido ajustado en más de un millón de calificaciones de calidad en 42 idiomas y probado en 65, lo que lo convierte en el esfuerzo publicado más grande de este tipo hasta la fecha.

Funcionamiento de SQuId

SQuId toma una expresión como entrada y una etiqueta de localización opcional, que es una variante localizada de un idioma, y devuelve una puntuación entre 1 y 5 que indica cuán natural suena la forma de onda. El modelo consta de tres componentes: un codificador, una capa de agrupación / regresión y una capa completamente conectada. El codificador es la pieza más grande e importante del modelo.

Entrenamiento y evaluación de SQuId

Para entrenar y evaluar el modelo, se creó el corpus de SQuId, una colección de 1.9 millones de expresiones calificadas en 66 idiomas. Este corpus cubre una amplia gama desistemas y casos de uso, exponiendo a SQuId a una amplia gama de errores de TTS, como artefactos acústicos, prosodia incorrecta, errores de normalización de texto o errores de pronunciación.

Desafíos en el entrenamiento de sistemas multilingües

Un problema común al entrenar sistemas multilingües es que los datos de entrenamiento pueden no estar uniformemente disponibles para todos los idiomas de interés. Para abordar este problema, Google decidió entrenar un modelo para todos los idiomas, en lugar de usar modelos separados para cada idioma. Esta técnica se conoce como transferencia entre localidades.

Transferencia entre localidades

La transferencia entre localidades es la hipótesis de que si el modelo es lo suficientemente grande, entonces puede ocurrir una transferencia entre localidades: la precisión del modelo en cada localidad mejora como resultado de entrenar conjuntamente en las demás. Los experimentos de Google muestran que la transferencia entre localidades es un potente impulsor del rendimiento.

Resultados experimentales

Para entender el rendimiento general de SQuId, Google lo comparó con un modelo Big-SSL-MOS personalizado, un modelo competitivo inspirado en MOS-SSL, un sistema de evaluación de TTS de última generación. Big-SSL-MOS se basa en w2v-BERT y fue entrenado en el conjunto de datos del Desafío VoiceMOS’22, el conjunto de datos más popular en el momento de la evaluación. Se experimentó con varias variantes del modelo, y se encontró que SQuId es hasta un 50.0% más preciso.

Conclusiones y trabajo futuro

SQuId es un modelo revolucionario que utiliza el conjunto de datos de SQuId y el aprendizaje de transferencia entre localidades para evaluar la calidad del habla y describir cuán natural suena. Este modelo puede complementar a los evaluadores humanos en la evaluación de muchos idiomas. El trabajo futuro incluye mejoras en la precisión, la expansión del rango de idiomas cubiertos y la resolución de nuevos tipos de errores. Este avance en la evaluación de la síntesis de voz en múltiples idiomas es un paso significativo hacia la creación de tecnologías de voz más accesibles y naturales para usuarios de todo el mundo.

Más información en ai.googleblog.com y en arxiv.org