En la actualidad, la inteligencia artificial ha avanzado significativamente en diferentes áreas, como la creación de imágenes, la música y la síntesis del habla. Sin embargo, en la imitación del comportamiento humano en entornos interactivos, aún hay mucho por explorar. Es aquí donde entra en juego la utilización de los modelos de difusión, una clase de modelos de inteligencia artificial generativa, en el proyecto «Imitando el comportamiento humano con modelos de difusión».
¿Qué es un modelo de difusión?
Antes de profundizar en el proyecto, es importante entender qué es un modelo de difusión. Este tipo de modelos se utilizan en inteligencia artificial generativa para crear imágenes, videos, música, etc. La idea detrás de un modelo de difusión es simular el proceso de difusión de partículas, que se mueven de forma aleatoria. En lugar de partículas, se utilizan valores aleatorios para crear una imagen o una secuencia de música.
En la difusión, se comienza con una imagen o una secuencia de valores aleatorios y se aplica una serie de transformaciones para crear una nueva imagen o secuencia. Cada transformación se denomina «paso de tiempo» y a medida que se avanza en el proceso de difusión, se obtienen imágenes o secuencias cada vez más detalladas.
Imitación del comportamiento humano
En el proyecto «Imitando el comportamiento humano con modelos de difusión» que hemos leído en la web de Microsoft, se utiliza la idea de los modelos de difusión para imitar el comportamiento humano en entornos interactivos. Se parte del paradigma de aprendizaje por imitación, en el que se utiliza un conjunto de datos que contiene observaciones de las acciones de una persona en un entorno interactivo. El objetivo es que un agente de inteligencia artificial imite estas acciones.
En un entorno interactivo, se recibe una observación (por ejemplo, una captura de pantalla de un videojuego) y se selecciona una acción (por ejemplo, el movimiento del mouse). Con un conjunto de datos que contenga múltiples observaciones y acciones realizadas por un demostrador, un modelo podría tratar de aprender esta relación de observación a acción.
Problemas en el aprendizaje por imitación
El problema con el aprendizaje por imitación es que las acciones humanas son estocásticas y multimodales, lo que significa que los humanos pueden tomar diferentes decisiones en situaciones similares. Además, la selección de acciones continuas puede plantear problemas en cuanto a qué función de pérdida utilizar. Por ejemplo, si se utiliza el error cuadrático medio, se anima al agente a aprender el promedio de todas las acciones en el conjunto de datos, lo que no es necesariamente representativo de la variedad de acciones humanas.
El uso de modelos de difusión
Para abordar estos problemas, los autores del proyecto adaptan las ideas de los modelos de difusión utilizados en la generación de imágenes a la imitación del comportamiento humano. En lugar de crear imágenes, se genera una acción de baja dimensionalidad.
La principal ventaja de los modelos de difusión es su capacidad para generar acciones diversificadas que reflejan la variedad de comportamientos humanos. Al entrenar un modelo de difusión con un conjunto de datos de múltiples observaciones y acciones humanas, el modelo aprende a generar una distribución de acciones que refleja la variabilidad del conjunto de datos, lo que permite al agente de inteligencia artificial imitar mejor el comportamiento humano.
Resultados del proyecto
El proyecto se probó en dos entornos diferentes: un entorno simulado de cocina y un videojuego 3D. En ambos casos, los modelos de difusión superaron a otros métodos de aprendizaje por imitación en cuanto a la diversidad de comportamientos aprendidos y la tasa de finalización de tareas.
Como veis, el proyecto «Imitando el comportamiento humano con modelos de difusión» muestra cómo los modelos de difusión pueden ser utilizados para imitar el comportamiento humano en entornos interactivos. Al adaptar las ideas de los modelos de difusión de la generación de imágenes a la imitación del comportamiento humano, los autores del proyecto lograron generar una distribución de acciones que refleja la variabilidad del conjunto de datos, lo que permitió al agente de inteligencia artificial imitar mejor el comportamiento humano.