SketchAgent: el sistema de IA que dibuja como lo haría un humano, trazo a trazo

Publicado el

ilustracion-artistica-colorida-que-muestra-una-colaboracion-entre-una-mujer-humana-y-un-robot-de-inteligencia-artificial-dibujando-ideas-como-ADN-casa-y-mariposa

En nuestra vida diaria, solemos dibujar más de lo que imaginamos: bocetos rápidos en una hoja para explicar una idea, un diagrama improvisado en la pizarra o un garabato en una libreta para organizar pensamientos. Dibujar es una forma natural de pensar y comunicar. Pero hasta ahora, la inteligencia artificial no sabía reproducir este proceso tan humano de manera fluida y colaborativa.

Eso está empezando a cambiar gracias a SketchAgent, un sistema desarrollado por el MIT CSAIL y la Universidad de Stanford. Esta herramienta enseña a los modelos de lenguaje multimodal a dibujar paso a paso, imitando el proceso de boceto que usamos los humanos. Y lo hace sin necesidad de entrenar con dibujos humanos previos.


¿Qué es SketchAgent y cómo funciona?

SketchAgent es una interfaz que conecta modelos de lenguaje con capacidad visual (como Claude 3.5 Sonnet) para que respondan a peticiones en lenguaje natural generando dibujos por etapas. La idea no es obtener ilustraciones perfectas, sino garabatos explicativos: un robot, un mapa, un ADN, una casa, una mariposa o incluso la ópera de Sídney.

El proceso es sencillo pero poderoso: cuando el usuario pide un dibujo, SketchAgent interpreta la instrucción, la descompone en una secuencia de acciones (o «trazos») sobre una cuadrícula, y genera la imagen paso a paso. Cada trazo tiene un significado asociado (por ejemplo, «rectángulo que representa una puerta»). Así, la IA no copia, sino que aprende a representar conceptos visualmente.

Este enfoque permite dos modos de uso:

  • Autónomo: la IA dibuja sola a partir de una descripción textual.
  • Colaborativo: humano y máquina dibujan juntos, turnándose en el proceso creativo.

En ambos casos, el sistema busca imitar la manera en que una persona podría ir probando, editando y perfeccionando un boceto.


Un lenguaje de dibujo en lugar de un banco de datos

Uno de los puntos más innovadores de SketchAgent es que no fue entrenado con dibujos humanos, a diferencia de otros modelos que dependen de bases de datos limitadas. En su lugar, los investigadores definieron un lenguaje de dibujo estructurado: una forma de codificar dibujos en secuencias numéricas que indican trazo, posición y significado.

Este «idioma visual» permite que el modelo generalice: si sabe que un trazo cerrado en forma de triángulo puede representar un tejado, podrá usar esa idea en nuevos contextos, incluso si nunca ha visto un dibujo igual.


Colaboración hombre-máquina que se nota en el resultado final

Los investigadores también probaron si SketchAgent realmente coopera con el usuario o simplemente sigue su propio plan. En una serie de experimentos, se eliminaron los trazos generados por la IA de los dibujos colaborativos, y el resultado fue claro: en la mayoría de casos, el dibujo se volvía irreconocible sin la contribución del sistema.

Por ejemplo, en el dibujo de un velero, al quitar el trazo de la mástil hecho por SketchAgent, se perdía el sentido general. Esto indica que la IA entiende y aporta elementos clave, y no se limita a decorar o completar.


Claude 3.5 Sonnet: el modelo más eficaz dibujando

Para comprobar cuál era el modelo multimodal más apto, se probaron varios como GPT-4o y Claude 3 Opus. El mejor rendimiento lo dio Claude 3.5 Sonnet, que generó dibujos más naturales y reconocibles. Su capacidad para traducir ideas en representaciones vectoriales lo destacó frente a los demás.

Esto sugiere que algunos modelos tienen una comprensión más afinada de la información visual, y podrían ser la base para interfaces más intuitivas entre personas y máquinas.


Limitaciones actuales y mejoras en camino

Aunque prometedor, SketchAgent todavía tiene limitaciones. Su estilo es más cercano al garabato que al diseño profesional, y se le dificulta representar seres complejos como unicornios o figuras humanas con detalle. También puede confundir partes del dibujo colaborativo, como cuando dibujó un conejo con dos cabezas por malinterpretar el aporte humano.

Esto se debe en parte al uso de «Chain of Thought» (cadena de razonamiento), donde el modelo divide tareas en pasos lógicos. Al colaborar con una persona, puede que no quede claro quién está dibujando qué, y se generan confusiones.

Los investigadores trabajan en refinar estos aspectos, usando datos sintéticos generados por modelos de difusión, y mejorando la interfaz para facilitar la interacción.


Aplicaciones futuras: educación, creatividad y accesibilidad

SketchAgent podría tener un papel importante en sectores como:

  • Educación: ayudar a los profesores a ilustrar conceptos abstractos en ciencias o matemáticas.
  • Terapias y neurodivergencia: permitir que personas con dificultades para expresarse verbalmente puedan comunicar ideas mediante dibujos.
  • Juegos creativos: convertirlo en una herramienta lúdica para aprender a dibujar o explorar ideas visualmente.

La clave está en que este sistema acerca el dibujo a cualquier persona, incluso sin habilidades artísticas, y abre nuevas vías de comunicación con las máquinas.