WWWhat's new

MAGNeT de Meta AI: solución de código abierto para crear audio a partir de texto

Pasar de texto a audio

Meta AI acaba de presentar a MAGNeT, un modelo de generación de texto a audio que promete revolucionar la manera en que creamos y experimentamos sonidos. En este artículo, exploraremos en detalle cada uno de sus aspectos clave.

MAGNeT integra métodos autoregresivos y no autoregresivos en su arquitectura, lo que le permite equilibrar velocidad y calidad en la generación de audio. Este enfoque híbrido resulta en una velocidad 7 veces mayor en comparación con los modelos autoregresivos tradicionales. Personalmente, considero que esta característica es crucial para aplicaciones en tiempo real y procesos creativos donde la rapidez es esencial.

Los métodos autoregresivos y no autoregresivos son conceptos utilizados en el campo de la inteligencia artificial y el modelado de datos, especialmente en la generación de secuencias como el texto, la música o el audio. Vamos a explicar cada uno de manera sencilla:

Métodos autoregresivos:

Métodos no autoregresivos:

Una característica distintiva de MAGNeT es su diseño de transformador de una sola etapa, que se utiliza tanto para codificar como para decodificar el audio. Esto simplifica significativamente el proceso de generación de audio. También emplea una programación de enmascaramiento personalizada y una decodificación progresiva, agregando adaptabilidad y optimizando el aprendizaje.

MAGNeT se destaca por su método de reevaluación de predicciones, utilizando un modelo preentrenado externamente para mejorar la calidad del audio generado. Desde mi perspectiva, esta innovación es un paso adelante en la búsqueda de un audio más realista y de alta fidelidad, aunque el mundo de los deepfakes está ahora saltando de alegría.

Recordad que hay otros proyectos en esa linea, como este o este, pero pocos tan avanzados como MAGNeT.

Para hacer el modelo accesible a un público más amplio, Meta AI ha lanzado una demostración en Gradio, una interfaz web fácil de usar para los programadores que quieran probar las capacidades de MAGNeT, democratizando más el acceso a la tecnología de generación de audio avanzada. También podéis ver demostraciones en pages.cs.huji.ac.il/adiyoss-lab/MAGNeT/

Mientras que modelos como Jukebox y MuseNet sobresalen en la generación de música de alta fidelidad y expresiva, MAGNeT se enfoca en la calidad y velocidad, posicionándose de manera única en el ámbito de la síntesis de audio.

MAGNeT de Meta AI es un ejemplo destacado de innovación en la generación de audio a partir de texto. Su combinación de velocidad, calidad y facilidad de uso lo convierte en una herramienta potencialmente valiosa para una variedad de aplicaciones, desde la producción musical hasta el diseño de sonido y la creación de herramientas de accesibilidad.

El código está en github.com y el estudio en arxiv.org/abs/2401.04577. Tenéis el paso a paso de las demos en @lonziks.