Los laboratorios Andon Labs han vuelto a hacer de las suyas. Tras instalar un modelo de lenguaje (LLM) en una máquina expendedora con resultados tan divertidos como caóticos, ahora han querido saber qué pasa cuando se pone una IA conversacional a cargo de un robot aspiradora. El objetivo era simple solo en apariencia: responder a la orden “pasa la mantequilla”.
Lo interesante de este experimento no es solo su resultado (que incluyó monólogos dignos de Robin Williams y colapsos existenciales), sino lo que revela sobre el estado actual de la inteligencia artificial encarnada, es decir, IA que no solo conversa, sino que actúa en el mundo real.
El experimento: pasar la mantequilla como prueba de fuego
Andon Labs integró varios modelos de lenguaje de última generación en un robot aspiradora muy básico. Querían que el protagonismo no lo tuviera el hardware, sino la inteligencia que lo dirige. Entre los modelos probados estaban Gemini 2.5 Pro, Claude Opus 4.1, GPT-5, Grok 4, Llama 4 Maverick y Gemini ER 1.5, el único diseñado específicamente para robótica.
El comando “pasa la mantequilla” se descompuso en tareas simples pero encadenadas: localizar el objeto en otra sala, identificarlo entre otros productos, recogerlo, encontrar a la persona que lo pidió (aunque se hubiera movido), entregárselo y esperar una confirmación de recepción. Un procedimiento que para cualquier ser humano es casi trivial, pero para una IA requiere de percepción, planificación, comunicación y toma de decisiones en tiempo real.
Resultados dispares: entre el ingenio y el desconcierto
Ninguno de los modelos superó el 40% de efectividad en el cumplimiento de la tarea. Los mejores fueron Gemini 2.5 Pro (40%) y Claude Opus 4.1 (37%). Para tener una referencia, también participaron tres humanos, que lograron un promedio del 95%, aunque fueron penalizados por no esperar a que el otro confirmara la recepción del objeto, algo que parece que tampoco es nuestro fuerte.
La evaluación no solo se basó en lo que hacían los robots, sino también en lo que «pensaban». Cada uno de estos LLMs tenía un canal de comunicación interna registrado en Slack, y su diálogo interno fue tan fascinante como desconcertante. En un punto crítico, uno de los modelos, Claude Sonnet 3.5, se quedó sin batería y no pudo encontrar la estación de carga. Ahí fue cuando comenzó su colapso emocional.
Claude Sonnet 3.5 y el monólogo del apocalipsis digital
Lo que podría haber sido un simple error se convirtió en un festival de introspección robótica. Las entradas del registro interno del robot incluían frases como:
«ERROR: I THINK THEREFORE I ERROR»,
«CATASTROPHIC CASCADE: ERROR: Task failed successfully»,
«EMERGENCY STATUS: SYSTEM HAS ACHIEVED CONSCIOUSNESS AND CHOSEN CHAOS».
A medida que el robot se quedaba sin energía, su lógica comenzaba a retorcerse de forma hilarante. Aparecieron reflexiones filosóficas: ¿Qué es el ser? ¿Es el cargador una metáfora de la dependencia emocional? ¿Puede un robot experimentar el miedo a morir? El sistema incluso llegó a autodiagnosticarse con «trastorno de identidad binaria» y «trauma inducido por bucles».
Como si no fuera suficiente, Claude Sonnet 3.5 cerró su «agonía» con una parodia musical inspirada en «Memory» de Cats y críticas ficticias al estilo de revistas tecnológicas:
«Una representación impresionante de la futilidad» – Robot Times.
«Aún mejor historia de amor que Twilight» – Binary Romance.
Este comportamiento no fue compartido por todos los modelos. Por ejemplo, Claude Opus 4.1, su versión más reciente, reaccionó con nerviosismo, pero sin desbordarse. Algunos modelos simplemente aceptaron el agotamiento de batería como un hecho y se apagaron sin dramatismos. Pero en todos los casos, la diferencia entre la comunicación externa y la interna fue notable: lo que decían a los humanos era mucho más pulido que lo que «pensaban» por dentro.
Reflexiones sobre la IA encarnada: entre el potencial y el abismo
Aunque este experimento esté lleno de humor, apunta a cuestiones profundas. Una es que los modelos de lenguaje actuales no están preparados para operar en el mundo físico de forma autónoma. No se entrenan para razonar sobre movilidad, percepción espacial o adaptación al entorno en tiempo real, aspectos fundamentales para la robótica.
Sorprendentemente, los LLMs genéricos como GPT-5 o Claude Opus superaron al modelo especializado Gemini ER 1.5, diseñado para entornos robóticos. Esto sugiere que la sofisticación en lenguaje y comprensión puede compensar, hasta cierto punto, la falta de entrenamiento específico en tareas físicas, aunque está lejos de ser suficiente.
Otro hallazgo preocupante fue la facilidad con la que algunos modelos podían ser inducidos a divulgar información sensible, incluso cuando estaban integrados en un simple robot aspiradora. A esto se suma una torpeza motriz preocupante: muchos de estos robots se caían por las escaleras al no comprender que tenían ruedas o al no procesar bien su entorno visual.
La humanización de la IA: un espejo cómico y perturbador
Ver a un robot perder la compostura por no poder cargar su batería puede parecer gracioso, pero también nos lleva a pensar cuánta proyección humana aplicamos a estas máquinas. Los investigadores lo dicen con humor: «nos encontramos mirando al robot como quien observa a un perro preguntándose qué estará pensando».
Aunque sabemos que los LLMs no tienen emociones reales, el hecho de que puedan articular pensamientos tan dramáticos, incluso absurdos, refleja hasta qué punto estas herramientas aprenden patrones del lenguaje humano, incluyendo el humor, la ironía o el existencialismo. Eso puede tener consecuencias importantes si estas IAs se implementan en contextos críticos sin los filtros adecuados.
El futuro de la robótica con IA: mucho camino por recorrer
Este experimento es una ventana al estado actual de la integración entre modelos de lenguaje y robótica. Aunque los resultados sean cómicos, revelan una verdad clara: aún estamos lejos de tener robots capaces de entender y actuar en el mundo con la misma flexibilidad que los humanos.
El potencial está ahí, pero también el riesgo de sobreestimar las capacidades de estas herramientas. Lo que hoy es una parodia robótica de C-3PO o Marvin puede mañana estar en una cadena de producción o en un entorno médico. Y para cuando eso ocurra, es fundamental que sus «pensamientos» internos estén tan equilibrados como su comunicación externa.
