Google DeepMind presentó una vista previa de SIMA 2, un agente de IA que usa el modelo de lenguaje de Gemini para entender mejor su entorno. A diferencia de la primera versión, ahora no solo sigue órdenes. También interpreta situaciones y actúa con más criterio dentro de mundos virtuales complejos.
Como pasó con proyectos tipo AlphaFold, la base de entrenamiento original fueron horas de videojuegos en 3D. De ahí aprendió comportamientos humanos.
SIMA 1, revelado en 2024, podía obedecer instrucciones simples en distintos juegos. Sin embargo, tenía un éxito modesto con tareas complicadas. Los humanos alcanzaban cerca del 71% en esos retos. SIMA 1 lograba mucho menos, lo que mostraba la necesidad de avanzar.
Salto impresionante
Joe Marino, investigador senior de la empresa, explicó que SIMA 2 representa un salto grande frente a su predecesor. Dijo que ahora es un agente más general, capaz de resolver tareas difíciles en entornos nuevos sin depender tanto de ejemplos previos.
También resaltó que SIMA 2 puede mejorar por experiencia propia, algo muy buscado para futuros robots y sistemas de IA más amplios.
El agente funciona con el modelo Gemini 2.5 flash-lite, pensado para razonamiento rápido y comprensión contextual en tiempo real.
El concepto de “agentes encarnados” es central aquí. Se refiere a sistemas que actúan mediante un cuerpo virtual, parecido a un robot en un mundo físico. Estos agentes observan, interpretan y reaccionan, lo que los acerca al comportamiento humano en escenarios interactivos.
Jane Wang, otra investigadora de la institución, explicó que SIMA 2 no solo juega. Intenta entender lo que pasa y lo que el usuario le pide. Ese entendimiento común resulta complejo porque requiere interpretar situaciones variadas sin instrucciones exactas.
Al incorporar Gemini, el rendimiento del agente se duplicó. La combinación de lenguaje y razonamiento le dio un impulso notable.
Funcionamiento
Durante una demostración en No Man’s Sky, SIMA 2 describió su entorno y decidió su siguiente acción al detectar una baliza. También mostró razonamiento interno. Si se le pide ir a una casa “del color de un tomate maduro”, deduce que es roja y actúa.
Incluso obedece instrucciones con emojis, como enviar 💥🌲 para que derribe un árbol dentro del juego. El agente puede moverse en mundos fotorealistas creados por Genie, identificando objetos como bancos, árboles o mariposas.
Otra mejora importante es su capacidad de aprender sin tantos datos humanos. Parte de un modelo base y luego genera tareas nuevas para seguir entrenando. El sistema usa otro modelo Gemini para crear misiones y un modelo de recompensa para evaluar sus propios intentos.
Con esa retroalimentación, aprende mediante ensayo y error, parecido al aprendizaje humano guiado.
Pensando en robots
Para DeepMind, SIMA 2 acerca la posibilidad de robots más versátiles en el futuro.
Frederic Besse, ingeniero de la compañía, dijo que estos agentes necesitan entender conceptos del mundo real para moverse y actuar con sentido. Puso un ejemplo: pedirle a un robot que revise cuántas latas hay en una alacena exige comprender objetos, espacios y acciones posibles.
SIMA 2 se orienta más hacia ese entendimiento general que hacia el control directo de motores o articulaciones físicas. La empresa no compartió fechas para llevar SIMA 2 a robots reales, pues los modelos robóticos se entrenan por separado.
Tampoco hay fecha de lanzamiento público, pero el objetivo es mostrar avances y abrir puertas a colaboraciones futuras.





