¿Alguna vez has imaginado algo tan vívidamente que podrías verlo con tus propios ojos? Gracias a los avances tecnológicos y la inteligencia artificial, esto ahora es posible. En un reciente estudio publicado en diciembre, investigadores de la Escuela de Graduados de las Ciencias Bioscience de la Universidad de Osaka lograron reconstruir imágenes de alta resolución a partir de la actividad cerebral utilizando el modelo de generación de imágenes Stable Diffusion.
¿Cómo funciona el modelo Stable Diffusion?
A diferencia de otros estudios previos, los investigadores no necesitaron entrenar o ajustar los modelos de IA para crear estas imágenes. En cambio, predijeron una representación latente de la imagen a partir de señales de resonancia magnética funcional (fMRI) y luego procesaron el modelo añadiéndole ruido a través de Stable Diffusion. Finalmente, los investigadores decodificaron las representaciones de texto de las señales de fMRI dentro del córtex visual superior y las utilizaron como entrada para producir una imagen reconstruida final.
¿Qué hace que este estudio sea único?
Aunque algunos estudios previos han producido reconstrucciones de imágenes de alta resolución, esto solo fue posible a través del entrenamiento y ajuste de modelos generativos. Esto tuvo limitaciones porque el entrenamiento de modelos complejos es desafiante y no hay muchos ejemplos en neurociencia para trabajar. Antes de este nuevo estudio, ningún otro investigador había intentado usar modelos de difusión para la reconstrucción visual. Este estudio fue una mirada al proceso interno de Stable Diffusion, proporcionando una interpretación cuantitativa del modelo desde una perspectiva biológica.
¿Qué podemos aprender sobre el cerebro humano a través de este estudio?
Los investigadores encontraron una correlación entre los niveles de estímulos y ruido en el cerebro. A medida que aumenta el nivel de estímulo, también aumenta el nivel de ruido, lo que a su vez aumenta la resolución de la imagen. El estudio también muestra la participación de diferentes redes neuronales en el cerebro y cómo eliminan el ruido para reconstruir la imagen. Los autores señalaron que la primera capa tiende a representar detalles a pequeña escala en las áreas visuales tempranas, mientras que la capa de cuello de botella corresponde a información de orden superior en áreas más ventrales y semánticas.
¿Qué otras aplicaciones podrían tener estos avances tecnológicos?
A medida que la IA generativa sigue avanzando, los investigadores están explorando nuevas formas de trabajar con el cerebro humano. En un estudio de enero de 2022, investigadores de la Universidad de Radboud en los Países Bajos entrenaron una red de IA generativa, un precursor de Stable Diffusion, usaron datos de 1050 caras únicas y convirtieron los resultados de la imagen cerebral en imágenes reales. El estudio encontró que la IA era capaz de realizar una reconstrucción de estímulo sin precedentes.
Tenéis el estudio en este PDF | Vía Vice