FoleyGan, una IA que puede generar sonidos para vídeos mudos

Publicado el

FoleyGAN

Foley, en postproducción audiovisual, es el nombre bajo el que se denomina a la práctica de recreación de sonidos, generados a través de diversos medios, para corregir o suplir la ausencia de un registro sonoro original.

El ingenio siempre ha sido un factor clave al momento de recrear estos efectos, pero un algoritmo busca hacer todo esto más fácil, generando los efectos de sonido faltantes mediante una IA.

Efectos Foley generados por inteligencia artificial

Sanchita Ghose y John J. Prevost, miembros de IEEE, organización dedidcada a la investigación en innovación tecnológica, publicaron recientemente un artículo en el que plantean la creación de un algoritmo de IA, que a través de técnicas de aprendizaje profundo sea capaz de determinar la relación entre ciertos tipos de escena y sus respectivos sonidos, con el fin de generar audios adaptados a las muestras mudas que se le presenten.

Este tipo de herramientas pueden construirse a través de una red generativa antagónica (GAN) y justamente, en esa dinámica se basa FoleyGAN, la propuesta de este par de investigadores para la generación de estos efectos de sala.

En función de cada secuencia de fotogramas presentada, FoleyGAN genera sonidos relacionados con la información visual, en buena calidad de audio y sincronizados con la imagen. Esta novedosa investigación presentada se centra en el proceso de creación de una red generativa antagónica para estos fines, cuidando los aspectos recién mencionados.

En sus primeras líneas de presentación, FoleyGAN es presentado en su estudio introductorio como un sistema “capaz de condicionar secuencias de acción de eventos visuales que conducen a la generación de pistas de sonido realistas alineadas visualmente”.

Los investigadores afirman haber trabajado con una amplia muestra de datos de Foley para entrenar a FoleyGAN. Sus primeros sonidos sintentizados, fueron sometidos a evaluación humana, obteniendo en promedio un 81% de aprobación, un índice que refleja la alta verosimilidad que pueden alcanzar estos sonidos sincronizados dentro de un clip de vídeo.

Estos resultados son celebrados como positivos por los ejecutores del proyecto, pues aseguran que su propuesta genera resultados superiores, en base a las estadísticas registradas de proyectos planteados bajo otras técnicas y entrenados con muestras de datos diferentes.

Generar efectos Foley originales, requiere dedicación y tiempo. Obtener estos sonidos desde Internet puede ser una solución rápida, pero restarle originalidad a un proyecto. A esas dos alternativas comunes, podría sumarse en el futuro una tercera, de la mano de la IA presentada.