Nuevos detalles sobre la visión humana revelados gracias al uso de IA y un motor de gráficos

El funcionamiento cerebral tiene muchos misterios que buscan ser resueltos desde el mundo de la ciencia. Uno de ellos es la capacidad que este poderoso órgano tiene para crear representaciones gráficas de nuestro entorno o, en otras palabras, procesar toda la información que es captada a través de nuestros ojos en tiempo real.

Un equipo del MIT se propuso avanzar en esta tarea, pues las investigaciones desarrolladas hasta la fecha han logrado, mediante modelos computacionales de visión, la ejecución de tareas más pequeñas, como seleccionar objetos o rostros.

A diferencia de las experiencias pasadas, un equipo encabezado por investigadores congitivos del Massachusetts Institute of Technology (MIT) logró producir un modelo de computadora que captura la capacidad del sistema visual humano para generar rápidamente una descripción detallada de la escena a partir de una imagen, ofreciendo por primera vez una idea sobre cómo el cerebro consigue esto.

Este modelo plantea que cuando el cerebro recibe un estímulo visual, realiza una serie de cálculos a muy alta velocidad, siguiendo un procedimiento similar al de un motor de gráficos 2D en un ordenador, pero en orden inverso.

Llegar a esto fue posible gracias al conocimiento acumulado por décadas, período en el que se han desarrollado numerosas y detalladas investigaciones sobre el sistema visual del cerebro, buscando comprender cómo la entrada de luz a través de la retina ocular se transforma en escenas cohesivas. Gracias a aquellos esfuerzos, hoy, en plena era de auge de la inteligencia artificial, los investigadores han podido desarrollar modelos informáticos que pueden emular algunos aspectos de este sistema.

El equipo tras esta investigación logró construir un tipo especial de modelo de red neuronal profunda, para exhibir cómo una jerarquía neuronal puede inferir rápidamente las características menos superficiales de una escena, como lo puede ser un rostro en específico. Esta IA fue entrenada a partir de un modelo que refleja las representaciones internas del cerebro y no con datos etiquetados que señalan la clase de un objeto en la imagen, como suele ser en estudios de esta clase.

De esta forma, el modelo adoptado logró aprender a invertir los pasos realizados por un un generador de gráficos por computadora para generar rostros. Estos programas parten de la base de una representación tridimensional de un rostro individual, para luego convertirla en una imagen 2D, según el punto de vista particular de quien la vea y acompañándola de un fondo aleatorio. Desde la teoría planteada por los investigadores, se señala que el sistema visual del cerebro puede hacer algo muy parecido cuando sueña o evoca una imagen mental de algún rostro.

Este experimento no emula a cabalidad la complejidad de la visión humana, pero ofrece un acercamiento bastante importante en relación a lo logrado por la comunidad científica hasta ahora. Los investigadores tras este avance tienen en agenda continuar perfeccionando esta tecnología, para buscar explicación al trabajo del cerebro ante otros tipos de escenas, para desarrollar sistemas de IA de mayor rendimiento y para concluir, con todas las pruebas pertinentes ya recabadas, que en un futuro descifrarán por completo el trabajo de la visión desde el cerebro.

Los resultados de esta investigación se atribuyen a Ilker Yildirim, autor principal del artículo, quien es un ex investigador del MIT que ahora es profesor asistente de psicología en la Universidad de Yale. Contó con la colaboración de Tenenbaum y Winrich Freiwald, profesores de neurociencias y comportamiento en la Universidad Rockefeller, quienes son los autores principales del estudio. Mario Belledonne, un estudiante graduado en Yale, también participó como autor. El estudio completo fue publicado en la revista especializada Science Advances, el cual puedes revisar en su texto íntegro (en inglés).