WWWhat's new

Ajustes acústicos automáticos para doblaje de vídeos, videoconferencias o realidad virtual

micrófono

Se conoce como reverberación a la reflexión de un sonido, definida por el ambiente en el que se emite, que permite percibir una ligera permanencia del mismo. Una referencia clásica para ilustrar este ejemplo es el efecto de «rebote» que se genera en un auditorio.

Investigadores de la Universidad de Texas en Austin, la Universidad de Stanford, Facebook Reality Labs y Facebook AI Research, desarrollaron un modelo de IA capaz de aplicar sobre una pista sonora la reverberación precisa correspondiente al espacio graficado en alguna imagen.

Una imagen de referencia para aplicar reverberación

Proporcionando una imagen del entorno de destino y un clip de audio de origen, el modelo desarrollado por este equipo de investigación debe volver a sintetizar el audio como si estuviera grabado en el entorno de destino. Este modelo ejecuta un análisis audiovisual de alta precisión, al identificar ciertas regiones de la imagen y comprender de qué manera influyen en la acústica estos factores.

A nivel cuantitativo y cualitativo, la tecnología propuesta demostró ser capaz de generar audios coincidentes con el entorno presentado en imágenes, con una alta calidad, tal como si el audio interactuara con los materiales gráficamente representados.

Para abordar esta tarea de ajuste acústico, denominada por el equipo de investigación como «coincidencia acústica visual», se aplicó un modelo de transformador intermodal que utiliza los elementos audiovisuales antes mencionados, para extrapolar estas propiedades visuales al audio y así generar un producto sonoro que evoque una sensación realista.

Además, el sistema de IA cuenta con un objetivo de capacitación autosupervisado, que lo dota con la capacidad de aprender la coincidencia acústica de vídeos presentes en la web. «Demostramos que nuestro enfoque traduce con éxito el habla humana a una variedad de entornos del mundo real representados en imágenes, superando tanto la coincidencia acústica tradicional como las líneas de base más supervisadas», señala la presentación del estudio tras este desarrollo.

Para dimensionar cómo funciona en la práctica esta tecnología, sus creadores compartieron un vídeo con muchos ejemplos.

Aunque la aplicación de esta tecnología de IA podría ser útil para una amplia variedad de proyectos audiovisuales, el foco de esta investigación se centró en la idea ofrecer una experiencia realista en entornos de realidad aumentada y realidad virtual.

Salir de la versión móvil