Microsoft celebra haber llegado a solo un 5,9% de error en su sistema de reconocimiento del habla

Hablar a una máquina y verificar que está entendiendo exactamente lo que decimos, independientemente de nuestro acento o de la velocidad con la que hablamos, es un sueño que hace algunos años parecía imposible de realizar.

Se han hecho muchos avances en este sentido, ya es posible dictar y obtener el texto prácticamente sin ningún problema en varias aplicaciones, tanto de Google, Microsoft o Apple como de otros pequeños proyectos tanto en web como en móviles, y este nuevo documento lo demuestra.

Se trata de un artículo que han escrito desde el departamento de investigación de Microsoft, donde muestran que han conseguido llegar a solo un 5,9% de error en la transcripción, igualándose así a los transcriptores humanos profesionales. Por supuesto, hablamos de entender frases en inglés, ya que en otros idiomas el porcentaje de error es algo mayor.

Esta meta alcanzada la celebran en el blog de Microsoft como el resultado de más de 20 años de trabajo, y lo consiguen ahora gracias a las redes neuronales y aprendizaje automático, dos ingredientes siempre presentes en la tecnología de hoy en día.

Es importante tener en cuenta que esto no significa que las máquinas consigan oír mejor que los humanos, ya que el error aumenta mucho cuando hay ruido ambiental, o con acentos complejos, aunque en este último caso se pueden usar las redes neuronales para ir adaptando el algoritmo sin muchas dificultades.