IA para añadir automáticamente efectos de sonido a clips de vídeo

Publicado el

Edición vídeo

Al momento de editar un clip de vídeo, la utilización de sonidos superpuestos, como efectos de sonido y ruido de ambiente, puede ayudar a lograr escenas más realistas. 

Realizar manualmente este trabajo es una tarea tediosa, demandante de largos minutos. Como una alternativa que busca facilitar esta etapa de postproducción, se propone la utilización de un sistema de IA para hacer coincidir efectos de sonido con el vídeo.

Soundify, una IA que añade sonidos a piezas de vídeo

Para realizar su trabajo, el sistema se encarga de dividir el video en escenas, mediante la utilización de un algoritmo de detección de límites, basado en distancias absolutas de histograma de color entre fotogramas vecinos. 

Cada escena es sometida a un proceso de clasificación para dos grandes categorías sonoras: efectos y ambientes. Seguidamente, se realizan comparaciones entre la escena y cada etiqueta de efectos. para obtener las 5 etiquetas de efectos coincidentes principales.

La incrustación de los sonidos se realiza de manera inteligente. Para los ambientes, los efectos seleccionados anteriormente por el usuario también se utilizan para volver a clasitficar las posiciones. Al momento de incrustar efectos de sonido, estos se sincronizan con el momento en que aparece su emisor en escena. Además, los parámetros de panorámica y ganancia de un efecto sonoro se combinan con su respectivo tiempo; por ejemplo, en cuanto un avión se desliza hacia arriba, la intensidad del sonido se ajusta en función de aquello.

“En el arte de la edición de video, el sonido es realmente la mitad de la historia. Un editor de video experto superpone sonidos, como efectos y ambientes, sobre el metraje para agregar carácter a un objeto o sumergir al espectador dentro de un espacio. Sin embargo, a través de entrevistas formativas con editores de video profesionales, descubrimos que este proceso puede ser extremadamente tedioso y lento”, señala parte del reporte que presenta los pormenores de la investigación tras este proyecto

En cuanto al rendimiento de esta herramienta, sus creadores señalan que “al aprovechar las bibliotecas de efectos de sonido etiquetadas y con calidad de estudio y extender CLIP, una red neuronal con impresionantes capacidades de clasificación de imágenes de disparo cero, en un ‘detector de disparo cero’, podemos producir resultados de alta calidad sin aprendizaje por correspondencia o generación de audio que consumen muchos recursos”. 

Una serie de demostraciones elaboradas por el equipo de investigación tras Soundify, el sistema de IA presentado, puede revisarse siguiendo este enlace.