Stability AI ha lanzado recientemente Stable Audio Open 1.0, una herramienta innovadora que expande sus capacidades de inteligencia artificial generativa al campo del audio. Con este lanzamiento, Stability AI sigue fortaleciendo su portafolio, conocido principalmente por su tecnología de generación de imágenes a partir de texto.
¿Qué es Stable Audio Open?
Stable Audio Open es una versión especializada de la herramienta de audio generativo de Stability AI. Está diseñada para crear fragmentos cortos de audio, como efectos de sonido y muestras musicales. A diferencia del producto comercial completo, que puede generar pistas de audio de hasta tres minutos, Stable Audio Open se enfoca en producir datos de audio de alta calidad de hasta 47 segundos a partir de prompts de texto.
Accesibilidad y Uso Responsable
Aunque el nombre sugiere una apertura total, Stable Audio Open no es completamente open source. Está disponible bajo una licencia de la comunidad de investigación no comercial de Stability AI. Esto permite el acceso abierto al modelo, pero limita su uso a fines no comerciales.
«Nuestro objetivo con Stable Audio Open es proporcionar a los investigadores y productores de audio acceso práctico a uno de nuestros modelos generativos para acelerar la investigación, la adopción y el uso creativo de estas nuevas herramientas,» explicó Zach Evans, jefe de investigación de audio en Stability AI.
Características Clave de Stable Audio Open
Modelo Especializado
Stable Audio Open está optimizado para generar ritmos de batería, riffs de instrumentos, sonidos ambientales y otras muestras de audio para la producción musical y el diseño de sonido. Este enfoque lo hace ideal para músicos y diseñadores de sonido que necesitan elementos específicos en sus proyectos.
Prompts de Texto
El modelo utiliza prompts de texto para generar audio, permitiendo a los usuarios describir el tipo de sonido que desean crear. Esto abre un mundo de posibilidades creativas, ya que los usuarios pueden experimentar con diferentes descripciones y obtener resultados únicos.
Entrenamiento Responsable
El modelo fue entrenado utilizando datos de FreeSound y el Free Music Archive, asegurando que no se utilizaran materiales con derechos de autor sin permiso. Este enfoque ético en el entrenamiento del modelo es crucial para evitar problemas legales y promover el uso responsable de la inteligencia artificial.
Personalización y Ajustes Finos
Una de las ventajas significativas de Stable Audio Open es la capacidad de los usuarios para ajustar finamente el modelo con sus propios datos de audio. Por ejemplo, un baterista puede usar muestras de sus propias grabaciones para generar nuevos ritmos únicos. Esta capacidad de personalización se habilita a través de la biblioteca Stable Audio Tools, que está licenciada como código abierto.
Disponibilidad y Futuro
Las ponderaciones del modelo de Stable Audio Open ya están disponibles en Hugging Face, lo que facilita a los investigadores y desarrolladores acceder y trabajar con el modelo. El equipo de investigación de audio de Stability AI continúa buscando maneras de mejorar la calidad y el control de sus modelos generativos, anticipando futuros lanzamientos tanto comerciales como abiertos que reflejen estos avances.