WWWhat's new

Stable Diffusion 3.5: mejorando la generación de imágenes y la diversidad

Imagen de Stability AI (generada con Stable Diffusion 3.0)

Imagen de Stability AI (generada con Stable Diffusion 3.0)

Stable Diffusion, la alternativa de código abierto a generadores de imágenes como Midjourney y DALL-E, ha lanzado su versión 3.5 con varias mejoras significativas. Este nuevo modelo no solo busca corregir los errores de la versión anterior (que tuvo algunos problemas bastante evidentes), sino también mejorar la capacidad de seguir instrucciones de manera más precisa y ofrecer una mayor diversidad en los resultados generados.

¿Qué trae de nuevo Stable Diffusion 3.5?

Una de las mejoras clave de Stable Diffusion 3.5 es que ahora sigue mejor las indicaciones o «prompts» dados por los usuarios, lo que lo coloca al nivel de modelos mucho más grandes en términos de calidad de salida. Esto es un gran avance, ya que la versión anterior, Stable Diffusion 3 Medium, fue criticada por generar imágenes que, a menudo, resultaban en deformaciones no deseadas, especialmente en figuras humanas.

Otro aspecto importante es que esta nueva versión está diseñada para generar personas con una mayor diversidad de estilos, tonos de piel y rasgos, sin necesidad de que el usuario lo especifique en los prompts. Esto hace que sea más inclusivo y representativo de la diversidad humana.

Tres versiones de Stable Diffusion 3.5

El nuevo modelo de Stable Diffusion viene en tres versiones diferentes, cada una con sus propias características:

Aprendiendo de los errores del pasado

La versión anterior, Stable Diffusion 3 Medium, que se lanzó en junio, no estuvo a la altura de las expectativas. Muchos usuarios se encontraron con imágenes que, en lugar de seguir las indicaciones dadas, terminaban siendo grotescas, especialmente en la generación de cuerpos humanos, lo que generó críticas. Con la versión 3.5, Stability AI ha hecho énfasis en la adherencia a los prompts, dejando claro que han aprendido de esos errores.

Además, se ha implementado una serie de filtros diseñados para reflejar mejor la diversidad humana, algo que fue solo brevemente mencionado en el anuncio oficial, pero que representa un avance importante en la generación de imágenes más precisas y éticamente responsables. Este tipo de mejoras son cruciales, sobre todo tras el fracaso de Google con su modelo Gemini, que generó fotos históricamente inexactas y provocó una gran controversia.

Con estas actualizaciones, Stable Diffusion 3.5 busca no solo mejorar la calidad y precisión de las imágenes generadas, sino también ofrecer resultados más inclusivos y diversos sin necesidad de indicaciones complejas.

Salir de la versión móvil