Máquinas inteligentes que entienden cómo debe comportarse un objeto según las leyes de la física

Cuando hacemos un truco de magia generamos sorpresa. Si hacemos desaparecer una moneda de la mano, o hacemos que un objeto desaparezca dentro de una caja, generamos sorpresa, porque esperamos que esos objetos hagan algo que no han hecho.

En cambio, si mostramos esos vídeos a un ordenador, nos mirará con cara de «¿y?», porque un ordenador no entiende cuáles son las leyes de la física, hay que explicarlas antes. Eso es lo que ha hecho un equipo del MIT.

Se trata de un modelo que demuestra la comprensión de física básica al registrar «sorpresa» cuando los objetos en las simulaciones se mueven de manera inesperada, como rodar detrás de una pared y no reaparecer en el otro lado. El modelo podría usarse para ayudar a construir una inteligencia artificial más inteligente y, a su vez, proporcionar información para ayudar a los científicos a comprender la cognición infantil.

El modelo, llamado ADEPT, observa los objetos que se mueven alrededor de una escena y hace predicciones sobre cómo deberían comportarse los objetos, en función de su física subyacente. Mientras rastrea los objetos, el modelo emite una señal en cada frame de video que se correlaciona con un nivel de «sorpresa»: cuanto mayor es la señal, mayor es la sorpresa. Si un objeto no coincide de manera dramática con las predicciones del modelo, por ejemplo, al desaparecer o teletransportarse a través de una escena, sus niveles de sorpresa aumentarán.

Con las pruebas realizadas, el ordenador registró niveles de sorpresa que coincidieron con los niveles reportados por humanos que habían visto los mismos videos. Si es raro para un humano, también lo era para el modelo.

ADEPT se basa en dos módulos: un módulo de «gráficos inversos» que captura representaciones de objetos de imágenes en bruto, y un «motor de física» que predice las representaciones futuras de los objetos a partir de una distribución de posibilidades. Comentan en techxplore.com que los gráficos inversos básicamente extraen información de los objetos, como la forma, la pose y la velocidad, de las entradas de píxeles. Este módulo captura cuadros de video como imágenes y utiliza gráficos inversos para extraer esta información de los objetos en la escena. ADEPT requiere solo una geometría aproximada de cada forma para funcionar.

Es un paso importante para que las máquinas entiendan cómo funciona el mundo, algo importante para que puedan sacar conclusiones en el futuro sobre fenómenos que nosotros aún no podemos explicar.