MAGNeT de Meta AI: solución de código abierto para crear audio a partir de texto

Juan Diego Polo

hace 2 años

Meta AI acaba de presentar a MAGNeT, un modelo de generación de texto a audio que promete revolucionar la manera en que creamos y experimentamos sonidos. En este artículo, exploraremos en detalle cada uno de sus aspectos clave.

MAGNeT integra métodos autoregresivos y no autoregresivos en su arquitectura, lo que le permite equilibrar velocidad y calidad en la generación de audio. Este enfoque híbrido resulta en una velocidad 7 veces mayor en comparación con los modelos autoregresivos tradicionales. Personalmente, considero que esta característica es crucial para aplicaciones en tiempo real y procesos creativos donde la rapidez es esencial.

Los métodos autoregresivos y no autoregresivos son conceptos utilizados en el campo de la inteligencia artificial y el modelado de datos, especialmente en la generación de secuencias como el texto, la música o el audio. Vamos a explicar cada uno de manera sencilla:

Métodos autoregresivos:

¿Qué Son?: Imagina que estás escribiendo una historia y para escribir cada palabra nueva, miras hacia atrás y te inspiras en las palabras que ya escribiste. Eso es, en esencia, lo que hace un método autoregresivo.
Dependencia del Pasado: En estos métodos, la predicción del siguiente elemento de una secuencia (como la próxima nota en una melodía) depende de los elementos anteriores. Es como un efecto dominó: cada pieza cae influenciada por la anterior.
Ejemplo Cotidiano: Es como seguir una receta de cocina paso a paso, donde cada paso depende del anterior.

Métodos no autoregresivos:

¿Qué Son?: Ahora, imagina que en lugar de escribir una historia palabra por palabra, decides escribir varias partes al mismo tiempo, independientemente una de la otra, y luego las unes. Eso es lo que hacen los métodos no autoregresivos.
Independencia y Velocidad: Estos métodos no dependen de una secuencia previa. Pueden predecir varias partes de una secuencia al mismo tiempo, lo que los hace generalmente más rápidos que los autoregresivos.
Ejemplo Cotidiano: Es como preparar varios platos de una comida al mismo tiempo, en lugar de uno tras otro.

Una característica distintiva de MAGNeT es su diseño de transformador de una sola etapa, que se utiliza tanto para codificar como para decodificar el audio. Esto simplifica significativamente el proceso de generación de audio. También emplea una programación de enmascaramiento personalizada y una decodificación progresiva, agregando adaptabilidad y optimizando el aprendizaje.

MAGNeT se destaca por su método de reevaluación de predicciones, utilizando un modelo preentrenado externamente para mejorar la calidad del audio generado. Desde mi perspectiva, esta innovación es un paso adelante en la búsqueda de un audio más realista y de alta fidelidad, aunque el mundo de los deepfakes está ahora saltando de alegría.

Recordad que hay otros proyectos en esa linea, como este o este, pero pocos tan avanzados como MAGNeT.

Para hacer el modelo accesible a un público más amplio, Meta AI ha lanzado una demostración en Gradio, una interfaz web fácil de usar para los programadores que quieran probar las capacidades de MAGNeT, democratizando más el acceso a la tecnología de generación de audio avanzada. También podéis ver demostraciones en pages.cs.huji.ac.il/adiyoss-lab/MAGNeT/

Mientras que modelos como Jukebox y MuseNet sobresalen en la generación de música de alta fidelidad y expresiva, MAGNeT se enfoca en la calidad y velocidad, posicionándose de manera única en el ámbito de la síntesis de audio.

MAGNeT de Meta AI es un ejemplo destacado de innovación en la generación de audio a partir de texto. Su combinación de velocidad, calidad y facilidad de uso lo convierte en una herramienta potencialmente valiosa para una variedad de aplicaciones, desde la producción musical hasta el diseño de sonido y la creación de herramientas de accesibilidad.

El código está en github.com y el estudio en arxiv.org/abs/2401.04577. Tenéis el paso a paso de las demos en @lonziks.