MusicGen: una nueva forma de generar música a partir de texto y melodías existentes

En el mundo de la inteligencia artificial, los avances en generación de música han sido cada vez más impresionantes.

Un nuevo modelo llamado MusicGen, desarrollado por Meta, está llamando la atención por la facilidad que ofrece para crear música a partir de indicaciones de texto y melodías existentes.

MusicGen, la propuesta de Meta para generar música con IA

Similar a otros sistemas actuales, MusicGen se basa en un modelo de Transformador. Mientras que un modelo de lenguaje predice los siguientes caracteres en una oración, MusicGen tiene la capacidad de predecir la siguiente sección en una pieza musical. Esto significa que puede generar nuevas piezas musicales basadas en indicaciones de texto.

Los investigadores de Meta utilizan el tokenizador de audio EnCodec para descomponer los datos de audio en componentes más pequeños. MusicGen es un modelo de una sola etapa que procesa estos tokens en paralelo, lo que lo convierte en una opción rápida y eficiente para generar música.

Para entrenar a MusicGen, el equipo utilizó un conjunto de datos de 20.000 horas de música con licencia. Este conjunto de datos incluía 10.000 pistas de música de alta calidad, así como datos de música de Shutterstock y Pond5. Este enfoque de entrenamiento con una amplia variedad de fuentes contribuye a la diversidad y calidad de las composiciones generadas por MusicGen.

La capacidad única de MusicGen para manejar texto y música

Una de las características distintivas de MusicGen es su capacidad para procesar tanto indicaciones de texto como melodías existentes. El texto proporciona el estilo básico, que luego se alinea con la melodía en el archivo de audio. Por ejemplo, si se combina un mensaje de texto que describe una pista de pop ochentera con la melodía de la famosa «Tocata y fuga en re menor» de Bach, MusicGen puede generar una nueva pieza musical basada en estas indicaciones. Este y otros ejemplos similares se pueden encontrar en la demostración de esta herramienta en Hugging Face, donde los usuarios pueden experimentar con las capacidades de generación musical de MusicGen utilizando también sus propios parámetros y muestras de audio.

Es importante tener en cuenta que MusicGen no permite un control preciso sobre la orientación de la melodía. Aunque el texto establece el estilo básico, no se refleja exactamente en la salida generada. Sin embargo, sigue siendo una guía aproximada para la generación de música y ofrece resultados interesantes.

En comparación con otros modelos populares como Riffusion, Mousai, MusicLM y Noise2Music, MusicGen muestra un desempeño superior tanto en métricas objetivas como subjetivas. La música generada por MusicGen coincide mejor con la letra y tiene una mayor plausibilidad en la composición. En general, según las mediciones de rendimiento presentadas por The Decoder, se sitúa por encima del nivel de MusicLM de Google.

Además de la demostración disponible en Huggingface que fue mencionada anteriormente, Meta ha lanzado tanto el código como los modelos de MusicGen como código abierto en Github, permitiendo su uso comercial.