DeepMind demuestra un robot capaz de entender el contexto de unas oficinas

Posted on
DeepMind demuestra un robot capaz de entender el contexto de unas oficinas

Robot de DeepMind demostrando sus habilidades para entender el contexto de una oficina. / DeepMind

DeepMind, la empresa de inteligencia artificial de Google, ha desarrollado un robot capaz de ofrecer visitas guiadas basadas en el contexto en un entorno de oficinas. Este avance ha sido detallado en un artículo publicado en el servidor de preimpresión arXiv.

La inteligencia artificial ha avanzado considerablemente en los últimos años, y los modelos de lenguaje grandes (LLM), como ChatGPT, se han vuelto comunes para los usuarios. 

En este nuevo proyecto, el equipo de DeepMind dotó a los robots RT-2 con capacidades de inteligencia artificial a través de Gemini 1.5 Pro, permitiendo así que el robot realizara tareas complejas.

El nuevo robot

El robot posee la habilidad de escuchar y analizar las peticiones de la persona que guía, traduciendo estas solicitudes en acciones. Por ejemplo, uno de los investigadores pidió al robot que lo llevara a un lugar donde pudiera escribir o dibujar. El robot procesó la solicitud durante unos 30 segundos y luego guió al investigador a una oficina con una pizarra en la pared.

Los investigadores explican que el robot puede realizar estas tareas porque Gemini 1.5 Pro fue entrenado para comprender el diseño de un espacio de trabajo de 850 metros cuadrados

Utilizando una extensa ventana contextual, el robot recopiló datos observando videos de distintas ubicaciones dentro de la oficina. El robot aprendió a navegar y ofrecer instrucciones multimodales mediante recorridos de demostración. 

Al observar los videos, el robot podía procesar simultáneamente diferentes partes del escenario de la oficina, lo que le permitió generar asociaciones y comprender mejor el entorno.

Además de las funciones de navegación, el equipo de DeepMind añadió capacidades de procesamiento de voz y texto, junto con otras funciones avanzadas de IAEsto le otorgó al robot la habilidad de realizar procesamiento inferencial. 

Las demostraciones

En una demostración, un investigador preguntó al robot si quedaba más de su bebida favorita en el frigorífico. El robot observó varias latas vacías de Coca-Cola cerca del investigador y dedujo que esa era su bebida preferidaLuego se dirigió al refrigerador, verificó su contenido y regresó para informar lo que había encontrado.

Con estos avances, DeepMind muestra cómo la combinación de inteligencia artificial y robótica puede facilitar la interacción y asistencia en entornos de trabajo.