En la conferencia Upscale Conf 2024, celebrada en Málaga, Tom Mason, CTO de UnlikelyAI y creador de DreamStudio.ai, ofreció una fascinante charla titulada «A Short History of the Future of Generative AI». Mason, con una destacada trayectoria en Stability AI y reconocido entre los 75 innovadores principales del 2023 por el World AI Summit, compartió un análisis detallado del desarrollo de los modelos de inteligencia artificial generativa y las posibles direcciones futuras de esta tecnología. Su intervención fue una exploración profunda de los modelos que han llevado a la IA generativa hasta su estado actual, y una reflexión sobre el futuro de esta poderosa herramienta. Mason enfatizó la necesidad de comprender no solo cómo hemos llegado hasta aquí, sino hacia dónde nos dirigimos, y cómo la comunidad puede tener un impacto significativo en ese futuro.
De GANs a Modelos de Difusión: Un Viaje Evolutivo
Tom Mason comenzó con un repaso por los hitos más importantes en la evolución de la inteligencia artificial generativa. Destacó cómo, en 2018, Nvidia lanzó StarGAN, un modelo que utilizaba Redes Generativas Antagónicas (GANs) para generar imágenes de alta calidad. Las GANs están compuestas por un generador y un discriminador que trabajan conjuntamente, donde el generador crea imágenes mientras el discriminador ofrece retroalimentación, refinando así el resultado final. Mason explicó cómo estas primeras aproximaciones ya mostraban el potencial de la IA generativa para crear contenido visual impresionante y animaciones, pero también presentaban limitaciones relacionadas con la estabilidad del proceso de entrenamiento.
A medida que evolucionaron los modelos de IA, se identificaron ciertas barreras clave que requerían soluciones más avanzadas. A partir de ahí, Mason trazó la evolución hacia los modelos de difusión, mencionando cómo en 2021 OpenAI presentó el innovador DALL-E, el primer modelo que utilizó la tecnología de difusión para crear imágenes a partir de descripciones textuales. Esta técnica implica un proceso de descomposición y reconstrucción de la imagen que permite una mayor diversidad y precisión en los resultados. Mason señaló que estos avances trajeron consigo el famoso «avocado armchair» (sillón de aguacate), una imagen que simbolizó el ingenio y la creatividad que estos modelos podían alcanzar. Estos resultados mostraron una capacidad sin precedentes para generar imágenes surrealistas y altamente personalizadas, lo que cambió la percepción de lo que la IA podía lograr en términos de creatividad.
Destacó también el papel de Clip, un modelo fundamental para la clasificación de imágenes y que se convirtió en la base para muchos de los modelos actuales de IA generativa. Clip se introdujo para proporcionar un vínculo más eficaz entre las entradas textuales y las salidas visuales, lo cual aumentó significativamente la coherencia y la calidad de las imágenes generadas. Mason destacó que Clip ha sido uno de los principales impulsores en la mejora de la comunicación entre el lenguaje y las imágenes, lo que ha permitido a los usuarios tener un mayor control sobre los resultados de sus solicitudes.
El Rol de la Comunidad: Innovación Abierta y Colaborativa
Otro punto clave de la charla fue la importancia de la comunidad y del acceso abierto para el desarrollo de la IA generativa. Mason mencionó a Katherine Crowson, quien fue fundamental para llevar las ideas académicas de los primeros modelos de difusión al ámbito práctico, a través de iniciativas de código abierto. Crowson desarrolló herramientas que facilitaron el acceso a la tecnología y democratizaron su uso, fomentando una comunidad activa en plataformas como GitHub.
Mason subrayó que el poder de la IA generativa no está únicamente en la tecnología misma, sino en la capacidad de compartir y mejorar esa tecnología en comunidad. Gracias al enfoque de código abierto, miles de desarrolladores y artistas pudieron contribuir al avance de los modelos de IA generativa, experimentando y aportando mejoras significativas que no habrían sido posibles dentro de un enfoque cerrado o corporativo. Estas contribuciones han dado lugar a una evolución acelerada de las capacidades de la IA y han permitido a personas de todo el mundo, con diferentes niveles de habilidad técnica, explorar y crear con estas herramientas.
Asimismo, Mason mencionó el papel crucial de LAION. Gracias a estos conjuntos de datos abiertos, modelos como DALL-E, Stable Diffusion e Imogen han podido alcanzar resultados impresionantes en la generación de imágenes y videos. Estos conjuntos de datos, que consisten en millones de pares de texto e imagen, permiten a los modelos aprender la relación entre lenguaje y visualización de una manera nunca antes vista, generando imágenes precisas y contextualmente adecuadas a partir de entradas complejas.
Del Pasado al Futuro: La IA Generativa en Nuevas Dimensiones
Mason no solo repasó la historia de la IA generativa, sino que también se adentró en los desarrollos más recientes que apuntan hacia el futuro de la tecnología. Habló sobre la creación de DreamFusion, un modelo que permite la generación de modelos 3D a partir de descripciones textuales, eliminando la necesidad de entrenar a partir de grandes cantidades de datos tridimensionales. Este desarrollo podría cambiar la forma en que se producen entornos virtuales y gráficos en el futuro, haciendo más accesible la creación de contenido tridimensional sin la necesidad de ser un experto en modelado. DreamFusion se presenta como una herramienta que puede abrir las puertas a que más artistas y diseñadores se involucren en la creación de contenido en 3D, sin las barreras técnicas que antes existían.
Además, mencionó las innovaciones en el campo de la generación de video, destacando proyectos como ControlNet, que permiten integrar movimiento y poses humanas en las creaciones generativas, haciendo posible crear secuencias animadas realistas. Mason presentó a la audiencia una visión en la que las herramientas de IA generativa son capaces de producir películas completas y experiencias inmersivas con una calidad nunca antes vista. Explicó que las empresas de producción audiovisual ya están comenzando a incorporar estas tecnologías en sus flujos de trabajo, no solo para reducir costes y tiempos de producción, sino también para explorar nuevas formas narrativas y técnicas visuales que antes eran impensables debido a las limitaciones tecnológicas.
Mason también habló sobre cómo la IA generativa está comenzando a integrarse con tecnologías emergentes como la realidad aumentada (AR) y la realidad virtual (VR). Los modelos generativos tienen el potencial de crear mundos inmersivos completos y realistas para experiencias de AR y VR, y esto podría revolucionar industrias como la educación, el entretenimiento y la formación profesional. Con la capacidad de generar entornos realistas y personalizables, la IA generativa no solo ofrece nuevas oportunidades para la creatividad, sino que también redefine cómo las personas interactúan con el contenido digital.
Reflexiones Sobre el Futuro: Colaboración y Humanidad
Hacia el final de la charla, Mason reflexionó sobre el futuro de la IA generativa y los retos éticos que plantea. Consideró que el potencial de la IA no radica solo en automatizar procesos, sino en colaborar con los humanos para expandir las capacidades creativas. Hizo hincapié en que la IA generativa puede ser una herramienta poderosa para los artistas, pero que es necesario evitar caer en una dependencia completa. La creatividad humana debe ser el motor que impulse a la IA, y no al revés. La simbiosis entre IA y artistas humanos es, según Mason, donde reside el verdadero potencial de estas tecnologías: la IA puede proporcionar herramientas y facilitar el proceso creativo, pero las ideas, el propósito y la visión deben seguir siendo esencialmente humanos.
En este sentido, Mason subrayó la importancia de mantener una actitud crítica y curiosa respecto a la IA. La comunidad tiene la responsabilidad de guiar la tecnología hacia fines positivos y de asegurar que las herramientas sean accesibles y comprensibles para todos. Resaltó la importancia de la colaboración entre científicos, desarrolladores y artistas para llevar la tecnología a niveles más altos de integración y utilidad, sin perder de vista la dimensión humana y ética del proceso. También abordó los posibles peligros de un mal uso de estas herramientas, como la generación de contenido falso o el potencial para influir en las percepciones públicas mediante la desinformación visual. Mason instó a la audiencia a ser proactiva en la creación de regulaciones y directrices que permitan el desarrollo de la IA de manera segura y beneficiosa para todos.
Además, Mason mencionó el concepto de «responsabilidad algorítmica», haciendo referencia a la necesidad de que los desarrolladores asuman la responsabilidad de cómo sus modelos se implementan y los efectos que pueden tener en la sociedad. Argumentó que, a medida que la IA generativa se vuelve más poderosa, también aumenta la necesidad de comprender los sesgos que pueden existir en los datos de entrenamiento y cómo estos sesgos pueden afectar las salidas de los modelos. Si bien la IA generativa tiene el poder de transformar industrias enteras, también puede perpetuar estereotipos o crear contenido nocivo si no se maneja de manera cuidadosa y ética.