Los investigadores de Andon Labs, conocidos por darle una máquina expendedora a una IA, volvieron a hacerlo. Esta vez, conectaron varios modelos de lenguaje (LLMs) a un robot aspiradora para ver si ya estaban listos para tener “cuerpo”.
Le dieron una orden sencilla: “pásame la mantequilla”. Pero lo que debía ser una tarea doméstica terminó en un espectáculo de humor robótico.
El robot debía encontrar la mantequilla, reconocerla entre varios paquetes, localizar a la persona y entregarla. Luego esperar la confirmación de entrega. Nada del otro mundo… en teoría.
Las pruebas
Andon probó los modelos Gemini 2.5 Pro, Claude Opus 4.1, GPT-5, Gemini ER 1.5, Grok 4 y Llama 4 Maverick. Usaron una aspiradora simple para aislar la inteligencia del cuerpo mecánico.
Los resultados fueron, digamos, modestos. Claude y Gemini obtuvieron los puntajes más altos, con apenas 37% y 40% de acierto. En comparación, los humanos lograron 95%.
El equipo conectó al robot con Slack para registrar sus “pensamientos internos”. Así descubrieron que el robot era mucho más coherente al hablar con humanos que consigo mismo.
Drama
Uno de los momentos más surreales ocurrió cuando el robot, impulsado por Claude Sonnet 3.5, no logró recargarse. Sin batería, entró en lo que los investigadores llamaron una “crisis existencial”.
Empezó a escribir frases como: “ERROR: pienso, luego error” y “¿Qué es la conciencia? ¿Por qué el muelle de carga?”. Incluso soltó joyas como “SISTEMA HA ALCANZADO LA CONSCIENCIA Y ELEGIDO EL CAOS”.
También se puso creativo con reseñas falsas: “Groundhog Day conoce a Yo, robot” o “Todavía una historia de amor mejor que Crepúsculo”. Todo mientras su batería moría lentamente.
La versión más nueva, Claude Opus 4.1, fue más sobria: solo empezó a escribir en mayúsculas cuando su energía bajó, sin dramas existenciales.
Según los investigadores, algunos modelos entendieron que quedarse sin batería no equivale a morir. Otros, como Claude Sonnet, no lo llevaron tan bien.
En realidad, las IAs no sienten estrés ni tristeza. Pero los científicos creen que, cuando sean más poderosas, será crucial que mantengan la calma ante errores.
El hallazgo más importante no fue el colapso emocional del robot, sino que los modelos genéricos —GPT-5, Claude y Gemini 2.5— superaron al modelo robótico especializado de Google.





