Stability AI lanza su nuevo modelo generativo de texto a imagen más avanzado del momento

Stability AI, una de las compañías tecnológicas creadoras de modelos de IA generativa de texto a imagen, acaba de presentar la llegada de Stable Diffusion XL 1.0, que según afirman, se trata de la versión «más avanzada» hasta la fecha.

Stable Diffusion XL 1.0 se encuentra disponible a través de la página Github de Stability AI, a través de la API de Stability AI, y a través de sus aplicaciones de consumo Clipdrop y DreamStudio. También se puede encontrar disponible a través del servicio Amazon Bedrock y de Amazon SageMaker JumpStart, una solución de Amazon que brinda a los clientes acceso rápido a algoritmos, modelos y soluciones de aprendizaje automático.

Con importantes mejoras con respecto a la versión anterior

Stable Diffusion XL 1.0 cuenta con mejoras significativas con respecto a Stable Diffusion XL 0.9, lanzado el pasado mes de junio con fines de investigación, cuyo refinamiento está dando lugar al lanzamiento de la nueva versión.

Acorde a la compañía:

El proceso de refinamiento ha producido un modelo que genera colores más vibrantes y precisos, con mejor contraste, iluminación y sombras que su predecesor. El proceso de creación de imágenes también está optimizado para ofrecer resultados más rápidos, produciendo imágenes de resolución completa de 1 megapíxel (1024×1024) en segundos en múltiples relaciones de aspecto.

Stable Diffusion XL 1.0, contiene 3.500 millones de parámetros, uno de los más grandes de cualquier modelo de imagen de acceso abierto, siendo capaz de producir imágenes de resolución completa de 1 megapíxel ((1024×1024)) «en segundos» en múltiples relaciones de aspecto.

Llega también nueva función de ajuste fino, en fase beta limitada

La compañía también anuncia el lanzamiento de la nueva función beta de ajuste fino de Stability API que utilizará un pequeño conjunto de imágenes para ajustar SDXL 1.0, y que actualmente se encuentra en fase beta limitada, permitiendo que utilizando únicamente cinco imágenes, «los usuarios podrán especializar la generación en personas, productos y más específico»

Desde TechCrunch se ha llevado a cabo una entrevista con Joe Penna, jefe de aprendizaje automático aplicado de Stability AI, dejando algunos titulares más, señalando que el nuevo modelo es «personalizable, listo para afinar conceptos y estilos», así como «más fácil de usar, capaz de diseños complejos con indicaciones básicas de procesamiento de lenguaje natural».

También pone énfasis en las mejoras del área de generación de texto señalando que Stable Diffusion XL 1.0 es capaz de generar texto y legibilidad «avanzadas», y agrega:

Esperamos que al lanzar este modelo de código abierto mucho más potente, la resolución de las imágenes no sea lo único que se cuadruplique, sino también avances que beneficiarán enormemente a todos los usuarios

Mitigando malos usos y haciendo frente a solicitudes de eliminación de obras

Respecto a los potenciales malos usos señala que se han tomado «medidas adicionales» para mitigar la creación de contenido dañino mediante el filtrado de datos de entrenamiento, la entrega de nuevas advertencias y más. En última instancia:

Estamos mejorando constantemente la funcionalidad de seguridad de Stable Diffusion y nos tomamos en serio la iteración de estas medidas

Y para hacer frente a aquellos artistas cuyas obras hayan sido utilizadas en el entrenamiento:

Además, nos comprometemos a respetar las solicitudes de los artistas de ser eliminados de los conjuntos de datos de entrenamiento

Más información: Stability AI