El punto débil de la IA, no consigue mezclar animales en la misma escena

Si habéis intentado poner una serpiente y un conejo en la misma imagen usando una IA como Midjourney, DALL-E y otros, habréis visto que los resultados son desastrosos.

Conejos con escamas, serpientes con pelo… y si encima pedís algo como «una serpiente comiendo un conejo», para ir de National Geographic por la vida, la cosa se pone realmente mal. Aquí tenéis algunos ejemplos del resultado:

Se trata de uno de los problemas específicos que se presenta en el sistema de Midjourney, la creación de imágenes que involucren animales de diferentes especies, aunque he hecho la prueba con DALL-E y el resultado no es muy diferente. Con la v5 de Midjourney ocurre algo semejante, y con Adobe Firefly no hay mucha diferencia tampoco, aunque mejora.

Serpiente y conejo con Adobe Firefly

Por qué ocurre esto

Este problema se debe en gran parte a la forma en que funciona el sistema de Midjourney. En esencia, el sistema de IA aprende a generar imágenes a partir de patrones que encuentra en conjuntos de datos de imágenes existentes. El sistema descompone la imagen en una serie de características, como formas, texturas y colores, y luego las utiliza para crear una nueva imagen que coincide con la descripción textual proporcionada. Sin embargo, cuando se le pide que genere imágenes que involucren múltiples conceptos, como animales de diferentes especies, el sistema puede tener dificultades para combinar de manera efectiva las características de ambos objetos.

Otro factor que contribuye a este problema es la falta de diversidad en los conjuntos de datos de entrenamiento utilizados por el sistema. Los conjuntos de datos de imágenes pueden estar sesgados hacia ciertas características o patrones, lo que limita la capacidad del sistema para generar imágenes que involucren combinaciones poco comunes de objetos o conceptos.

Qué se puede hacer para solucionar el problema

Aunque el problema de la generación de imágenes que involucran animales de diferentes especies es desafiante, existen estrategias que los desarrolladores de sistemas de IA pueden utilizar para mejorar la calidad de las imágenes generadas. Una estrategia consiste en entrenar el sistema con conjuntos de datos más diversos que incluyan una amplia variedad de imágenes que involucren múltiples objetos o conceptos. Otro enfoque es la utilización de técnicas de generación de imágenes basadas en el aprendizaje adversarial, que permiten al sistema mejorar progresivamente la calidad de las imágenes generadas a medida que se retroalimenta sobre su desempeño.