El sistema de reconocimiento de voz de Microsoft ya es casi perfecto

Microsoft ha anunciado un nuevo objetivo cumplido: una tasa de error del 5,1 por ciento en su sistema de reconocimiento de voz, el mismo porcentaje que el de los transcriptores humanos profesionales.

Mejoran así la tasa de 5,9% que tenían anteriormente, alcanzada en octubre de 2016, y abren las puertas a nuevos sistemas de colaboración entre humanos y máquinas.

En las pruebas realizadas se utilizaron millares de conversaciones telefónicas de diferentes años. Los investigadores usan los modelos neurales basados ”‹”‹en la red acústica del sistema de reconocimiento de voz de Microsoft, y los resultados son casi perfectos: se reconocen conversaciones enteras en lugar de sólo fragmentos, lo que ayuda a predecir con más facilidad qué frases o palabras probablemente vendrían después.

Esta predicción permite que el sistema añada la variable contexto, algo que hacemos los humanos constantemente. Los investigadores enseñaron al sistema a captar mejor el cuadro completo, entendiendo lo que estaba oyendo. El sistema de reconocimiento de voz de Microsoft se utiliza ahora mismo en Cortana, Microsoft Cognitive Services y Presentation Translator, y se seguirá ampliando en diversos sistemas de la compañía.

Una tasa de error de 5,1 por ciento en las palabras para el reconocimiento del habla es un logro importante, pero aún hay que mejorar el uso de micrófonos distantes para alcanzar niveles humanos de reconocimiento en entornos ruidosos, reconocer diversos dialectos y estilos de habla y ampliar la tecnología en todo el mundo. Ahora están trabajando en los conceptos de comprensión de la intención y el significado, grandes metas de la tecnología del habla y la inteligencia artificial.