Para las personas, la expresión facial es un elemento clave de nuestra comunicación no verbal, al ser un revelador reflejo de nuestras emociones y estado de ánimo.
Para la inteligencia artificial, dominar la capacidad de identificar estas expresiones sigue siendo un desafío. Si bien, ya hay avances al respecto, una investigación reciente presentó un nuevo proyecto que extiende las posibilidades dentro del área.
IA para un reconocimiento preciso de expresiones faciales
Bajo la dinámica social humana, las expresiones no verbales son un aspecto fundamental de nuestra comunicación. Más allá de variables proxémicas o kinéticas relacionadas a otras partes del cuerpo, lo que se transmite a través del rostro suele ser un aspecto más que define la percepción que se tiene de alguien con quien se dialoga o simplemente se comparte un espacio.
En lo que respecta a las últimas tecnologías, son muchos los avances que hemos conocido en torno al reconocimiento facial, enfocados principalmente en materias de identificación y seguridad. No obstante, la posibilidad de usar este recurso para detectar y medir las emociones expresadas a través de un rostro, es algo más difícil de abordar.
Muchos investigadores que trabajan en el campo de la inteligencia artificial han dedicado esfuerzos para abordar esta tarea, mediante el uso de diversas técnicas de modelado y clasificación, incluidas las redes neuronales convolucionales, que gozan de alta popularidad dentro de esta clase de proyectos. El principal desafío al que se enfrentan estas iniciativas son los altos costos asociados a la implementación de estas infraestructuras y el complejo trabajo de entrenamiento que hay que ejecutar sobre estas redes.
Con el fin de hacer más abordable la ejecución de este tipo de proyectos, un equipo de investigación desarrolló un modelo de red neuronal convolucional para el reconocimiento de expresiones faciales, creado con el propósito de obtener un buen equilibrio entre la velocidad de entrenamiento, el uso de la memoria de los equipos y la precisión de reconocimiento del modelo aplicado.
Esta investigación fue dirigida por el Dr. Jia Tian de la Universidad Normal de Ingeniería de Jilin en China. En su proyecto, a diferencia de los modelos de redes neuronales convolucionales convencionales, se propuso el uso de circunvoluciones separables en profundidad. Esto implica que la operación central realizada en cada capa de una de estas redes, combinando los resultados al final del proceso.
Mediante la aplicación del tipo de convolución propuesta, mediante una técnica llamada «bloques residuales preactivados», el modelo presentado pudo procesar las expresiones faciales de entrada de una manera gruesa a fina. De esta manera, el equipo redujo en gran medida el costo computacional y la cantidad necesaria de parámetros que el sistema debe aprender para presentar una clasificación realizada de forma precisa.
Las pruebas ejecutadas con este modelo, fueron utilizadas como parámetro de comparación frente a otros modelos de reconocimiento de expresión facial. Para este ejercicio, tanto el nuevo modelo como los otros presentados como referencia, fueron entrenados con un conjunto de datos popular, llamado «Conjunto de datos extendido de Cohn-Kanade», que contiene más de 35.000 imágenes etiquetadas de rostros que expresan emociones comunes. Los resultados obtenidos fueron catalogados como satisfactorios, pues el modelo desarrollado por el equipo de Tian presentó la mayor precisión registrada (72,4 %), haciendo uso además de la menor cantidad de parámetros posibles.
«El modelo que desarrollamos es particularmente efectivo para el reconocimiento de expresiones faciales cuando se utilizan pequeños conjuntos de datos de muestra. El siguiente paso en nuestra investigación es optimizar aún más la arquitectura del modelo y lograr un rendimiento de clasificación aún mejor», dijo Tian.
Aunque el reconocimiento facial en la actualidad se asocia principalmente a la seguridad, avances de este tipo pueden potenciar los modos de interacción entre humanos y ordenadores, expandiendo sus posibilidades de uso a la conducción segura, la medicina y otras tareas de monitoreo.