Nueva técnica para sincronizar nuestros labios con los dibujos animados

La animación 2D en vivo está de moda. Permite controlar personajes de dibujos animados en tiempo real mientras interactúan e improvisan con otros actores o miembros de una audiencia, lo que hace que podamos simular que somos un personaje de dibujos animados mientras respondemos preguntas de la audiencia, o crear películas animadas cada vez más realistas.

La producción de animaciones 2D en vivo realistas y efectivas requiere el uso de sistemas interactivos que pueden transformar automáticamente las actuaciones humanas en animaciones en tiempo real, y para ello la sincronización de labios es esencial.

Ahora han presentado una nueva técnica para mejorar este proceso de sincronización. Dos investigadores de Adobe Research y la Universidad de Washington presentaron un sistema interactivo basado en el aprendizaje profundo que genera automáticamente la sincronización de labios en vivo para los personajes animados en capas en 2D. El sistema que desarrollaron utiliza un modelo de memoria a largo plazo (LSTM), una arquitectura de red neuronal recurrente (RNN) que a menudo se aplica a tareas que implican clasificar o procesar datos, así como hacer predicciones.

La idea es poder transformar el discurso de un actor en los correspondientes movimientos de la boca, y para ello tienen que convertir la entrada de transmisión de audio en una secuencia correspondiente a 24 cuadros por segundo con una latencia de menos de 200 ms. En otras palabras, su sistema permite que los labios de un personaje animado se muevan en tiempo real de una manera similar a la de un usuario humano que habla, con menos de 200 ms de retraso entre la voz y el movimiento de los labios.

Para que este sistema funcione, han desarrollado un método que puede ayudar a generar datos de entrenamiento de manera más rápida y efectiva. Han presentado una nueva técnica que aumenta los datos de entrenamiento escritos a mano utilizando la deformación del tiempo de audio. Este procedimiento de aumento de datos les permite lograr una buena sincronización de labios incluso cuando entrenan su modelo en un pequeño conjunto de datos etiquetado.

Podéis leer más sobre esta nueva técnica en techxplore.com, donde hay un vídeo mostrando los detalles del nuevo sistema.