WWWhat's new

Riffusion, una variación de Stable Diffusion que crea imágenes a partir de música

Conoce Riffusion, una variación de Stable Diffusion que crea imágenes a partir de música

No cabe duda que Stable Diffusion fue una de las herramientas de IA que más dio de que hablar en este año. Y es que, a diferencia de otras alternativas IA similares usadas para generar imágenes, la nueva versión de Stable Diffusion presenta la particularidad de ser open source, lo cual otorga al usuario la posibilidad de adaptar las funcionalidades de esta herramienta a diferentes proyectos.

Es tanto el margen de adaptabilidad que ofrece Stable Diffusion que dos personas tomaron la iniciativa de llevar las capacidades de esta herramienta más allá logrando una nueva IA y dotándola con la capacidad de generar imágenes a partir de música.

Se trata de Riffusion, una IA creada por Seth Forsgren y Hayk Martiros que ha sido optimizada para generar espectrogramas, los cuales constituyen una serie de representaciones graficas del espectro de una señal y que pueden ser procesadas para obtener clips de audio.

Para ello, el usuario deberá introducir una descripción textual en el prompt, es decir, el tipo de sonido que deseas escuchar, de modo que esta sea interpretada luego por la IA como una instrucción para generar el espectrograma.

Para que Riffusion pudiera hacer todo esto Forsgren y Martiros tuvieron que generar numerosos espectrogramas de toda clase de música, las cuales fueron siendo clasificadas por estilos, instrumentos, entre otros, a medida que iban obteniéndose.

Posteriormente, las imágenes fueron usadas para entrenar a Riffusion de manera que pudiera tener una noción del aspecto que presenta cada tipo de sonido y a partir de esto intentar recrearlos o combinarlos entre sí.

Cabe mencionar que los resultados se encuentran limitados a un tamaño de 512x512px lo cual hace que el sonido generado tenga una duración de 5 segundos.

Y es que, al igual que pasa con Stable Diffusion, esta herramienta de IA admite la introducción de una infinita cantidad de variaciones, siempre y cuando estén basadas en una misma imagen original que sirva como punto de partida para generar las imágenes de audio.

No obstante, los creadores de Riffusion tuvieron que efectuar una serie de correcciones para lograr transiciones suaves entre los diferentes clips generados a partir de un mismo prompt.

Pulsa AQUÍ para ingresar en su página web. Si deseas tener acceso al código fuente podrás hacerlo entrando en el repositorio de GitHub.

Salir de la versión móvil