La inteligencia artificial ha estado siendo puesta al servicio de diferentes sectores. Uno de ellos ha sido el artístico, en el cual hemos visto como esta tecnología está siendo usada en el desarrollo de herramientas generadoras de imágenes a partir de texto como DALL-E y Stable Diffusion, las cuales facilitan notablemente el proceso creativo tradicional.
Así también, la inteligencia artificial ha permitido la creación de herramientas generadoras de video a partir de texto.
Pero ahí no acaba todo entre la inteligencia artificial y lo multimedia, ya que recientemente se dio a conocer el lanzamiento de una herramienta que sería algo así como el DALL-E del sonido.
Se trata de AudioGen, un generador de audio que hace su trabajo a partir de descripciones textuales.
En ese sentido, un equipo conformado por investigadores de Meta y de la Universidad Hebrea de Jerusalén explicaron que AudioGen funciona a partir de un modelo generativo autorregresivo, el cual se encarga de interpretar las peticiones textuales del usuario para generar el audio final.
We present “AudioGen: Textually Guided Audio Generation”!
AudioGen is an autoregressive transformer LM that synthesizes general audio conditioned on text (Text-to-Audio).
📖 Paper: https://t.co/XKctRaShN1
🎵 Samples: https://t.co/e7vWmOUfva
💻 Code & models – soon!(1/n) pic.twitter.com/UiJaA627bv
— Felix Kreuk (@FelixKreuk) September 30, 2022
En su cuenta de Twitter el investigador Felix Kreuk publicó un tuit de un audio generado con AudioGen, en el cual pueden escucharse una serie de sonidos, tales como el silbido de una persona mientras el viento sopla, una persona hablando al mismo tiempo que se escuchan pájaros cantando y perros ladrando, entre otros sonidos generados como resultado de los textos introducidos en AudioGen.
Los investigadores responsables de AudioGen aseguraron que esta herramienta ha sido diseñada de manera que sea capaz de superar las dificultades que puedan estar presentes en la generación de audio. Esto permite que AudioGen pueda ser capaz de reconocer diferentes tipos de sonidos y aislarlos acústicamente.
Esto significa que para un audio donde dos personas estén hablando al mismo tiempo, AudioGen podría obtener el audio de cada una por separado, lo cual constituye una cualidad bastante útil por parte de esta herramienta para muestras de audio precisas.
Para el entrenamiento de esta herramienta, el equipo señaló que se utilizaron diez conjuntos de datos de audio y etiquetas coincidentes.
Es necesario aclarar que este proyecto aún se encuentra en fase de desarrollo, por lo que el público tendrá que esperar para poder tener acceso, aunque próximamente tendrán la oportunidad de acceder al código de AudioGen y otros detalles en su perfil de GitHub.
Añadido a esto, mencionaron que continuarán trabajando en AudioGen para mejorar sus capacidades.