Stable Diffusion 3.5: mejorando la generación de imágenes y la diversidad

Stable Diffusion, la alternativa de código abierto a generadores de imágenes como Midjourney y DALL-E, ha lanzado su versión 3.5 con varias mejoras significativas. Este nuevo modelo no solo busca corregir los errores de la versión anterior (que tuvo algunos problemas bastante evidentes), sino también mejorar la capacidad de seguir instrucciones de manera más precisa y ofrecer una mayor diversidad en los resultados generados.

¿Qué trae de nuevo Stable Diffusion 3.5?

Una de las mejoras clave de Stable Diffusion 3.5 es que ahora sigue mejor las indicaciones o «prompts» dados por los usuarios, lo que lo coloca al nivel de modelos mucho más grandes en términos de calidad de salida. Esto es un gran avance, ya que la versión anterior, Stable Diffusion 3 Medium, fue criticada por generar imágenes que, a menudo, resultaban en deformaciones no deseadas, especialmente en figuras humanas.

Otro aspecto importante es que esta nueva versión está diseñada para generar personas con una mayor diversidad de estilos, tonos de piel y rasgos, sin necesidad de que el usuario lo especifique en los prompts. Esto hace que sea más inclusivo y representativo de la diversidad humana.

Tres versiones de Stable Diffusion 3.5

El nuevo modelo de Stable Diffusion viene en tres versiones diferentes, cada una con sus propias características:

Stable Diffusion 3.5 Large: Esta es la versión más potente y de mayor calidad. Está optimizada para aplicaciones profesionales y puede generar imágenes con una resolución de hasta 1 megapíxel. Destaca por su precisión al seguir instrucciones.
Stable Diffusion 3.5 Large Turbo: Esta es una versión más eficiente de la anterior. Aunque sigue ofreciendo imágenes de alta calidad, está diseñada para ser más rápida y eficiente en el uso de recursos, logrando resultados en solo cuatro pasos.
Stable Diffusion 3.5 Medium: Este modelo está pensado para ejecutarse en hardware de consumo, equilibrando calidad y simplicidad. Puede generar imágenes entre 0.25 y 2 megapíxeles, y estará disponible a partir del 29 de octubre.

Aprendiendo de los errores del pasado

La versión anterior, Stable Diffusion 3 Medium, que se lanzó en junio, no estuvo a la altura de las expectativas. Muchos usuarios se encontraron con imágenes que, en lugar de seguir las indicaciones dadas, terminaban siendo grotescas, especialmente en la generación de cuerpos humanos, lo que generó críticas. Con la versión 3.5, Stability AI ha hecho énfasis en la adherencia a los prompts, dejando claro que han aprendido de esos errores.

Además, se ha implementado una serie de filtros diseñados para reflejar mejor la diversidad humana, algo que fue solo brevemente mencionado en el anuncio oficial, pero que representa un avance importante en la generación de imágenes más precisas y éticamente responsables. Este tipo de mejoras son cruciales, sobre todo tras el fracaso de Google con su modelo Gemini, que generó fotos históricamente inexactas y provocó una gran controversia.

Con estas actualizaciones, Stable Diffusion 3.5 busca no solo mejorar la calidad y precisión de las imágenes generadas, sino también ofrecer resultados más inclusivos y diversos sin necesidad de indicaciones complejas.