A estas alturas, ya no deberemos de sorprendernos del alcance al que están llegando los sistemas de Inteligencia Artificial, mejorando la efectividad de sus diferentes tareas conforme avanza el tiempo. En este sentido, un grupo de científicos han querido mejorar la efectividad de la Inteligencia Artificial existente para la lectura de los labios de las personas, creando un modelo de aprendizaje automático llamado Lip by Speech (LIBS).
En LIBS han participado investigadores de Alibaba, la Universidad de Zhejiang y el Instituto de Tecnología Stevens, permitiendo que el sistema mejore el nivel de precisión de lectura de los labios con respecto a modelos anteriores, haciendo uso de personas disponibles a través de los vídeos, para lo cual han tenido en cuenta las características en los que se fijan los reconocedores de habla para servir a modo de pistas complementarias para su reconocimiento.
Para su funcionamiento, LIBS genera información útil de audio de los vídeos de las personas que hablan en ellos a múltiples escalas, alineando posteriormente estos datos obtenidos con los datos del vídeo identificando la correspondencia entre ellos. Para mejorar el reconocimiento, utiliza finalmente un sistema de filtrado que mejora las características del mismo.
Como señalan en VentureBeat, los componentes del reconocimiento de voz y lectura de los labios en LIBS utilizan una arquitectura de secuencia a secuencia basada en la atención, asignando entradas de vídeo a etiquetas y valores.
Los investigadores entrenaron a LIBS utilizando está arquitectura junto a las bases de datos LRS2 y CMLR, que disponen de 45.000 oraciones habladas en inglés de la BBC y de 100.000 oraciones en mandarín chino de China Network Television, respectivamente.
Aquellos que deseen conocer en detalle el funcionamiento de este sistema de aprendizaje automático, los investigadores han plasmado toda la información en un documento que está disponible a través de esta web.