Análisis profundo del audio, para mejorar el reconocimiento de voz

Aprender a entender el lenguaje fundamentado, el lenguaje que ocurre en el contexto de, y se refiere a, el mundo en general, es un área popular de investigación en robótica e informática. La mayoría del trabajo actual en esta área todavía opera con datos textuales, y eso limita la capacidad de desplegar agentes en entornos realistas.

Un artículo reciente de investigación propone adquirir un lenguaje fundamentado directamente del habla del usuario final utilizando un número relativamente pequeño de puntos de datos en lugar de depender de representaciones textuales intermedias.

La IA puede mejorar los sistemas de reconocimiento de voz

Se proporciona un análisis detallado de la conexión a tierra del lenguaje natural desde el habla cruda hasta los datos de sensores robóticos de objetos cotidianos utilizando modelos de representación del habla de última generación. El análisis de las cualidades de audio y habla de los participantes individuales demuestra que aprender directamente del habla cruda mejora el rendimiento de los usuarios con voz acentuada en comparación con confiar en las transcripciones automáticas.

El estudio del lenguaje fundamentado, que conecta el lenguaje natural con las percepciones, es un área de investigación importante para este rubro. El trabajo previo en la adquisición de lenguaje fundamentado se ha centrado principalmente en las entradas textuales.

A través de esta investigación logró mostrarse la viabilidad de realizar la adquisición del lenguaje fundamentado en percepciones visuales emparejadas y entradas de habla sin procesar. Esto permitirá interacciones en las que el lenguaje sobre nuevas tareas y entornos se aprende de los usuarios finales, reduciendo la dependencia de las entradas textuales y mitigando potencialmente los efectos del sesgo demográfico que se encuentra en los sistemas de reconocimiento de voz ampliamente disponibles.

El equipo de investigación aprovechó el trabajo reciente en modelos de representación del habla autosupervisados para mostrar que las representaciones aprendidas del habla pueden hacer que los sistemas de conexión a tierra del lenguaje sean más inclusivos hacia grupos específicos, al tiempo que mantienen o incluso aumentan el rendimiento general.

Evidentemente, un sistema capaz de reconocer mejor la voz humana, reduce el margen de error de la interacción de las personas con sistemas que cada vez están más incorporados en la vida cotidiana, como los asistentes virtuales, que además del móvil, están presentes en cada vez más dispositivos.