Icono del sitio Robotitus

Dos IAs han igualado a los humanos en tests de teorías de la mente

Representación de una IA robótica y un humano tomando una prueba. / Robotitus/Playground

Un equipo internacional de psicólogos y neurobiólogos ha descubierto que dos modelos de lenguaje grande (LLM, por sus siglas en inglés) pueden igualar o incluso superar a los humanos en pruebas de teoría de la mente

En su estudio, publicado en Nature Human Behavior, el grupo administró pruebas de teoría de la mente a voluntarios y comparó los resultados con los obtenidos por dos tipos de Modelos de Lenguaje.

Teorías de la mente

En los últimos años, las IAs como ChatGPT han mejorado significativamente, convirtiéndose en un producto comercial. Estas herramientas han desarrollado la capacidad de inferir el estado de ánimo, significados ocultos o el estado mental de un usuario humano.

En este nuevo estudio, el equipo se preguntó si las habilidades de los LLMs habían avanzado lo suficiente como para realizar tareas de teoría de la mente al mismo nivel que los humanos.

¿Pero qué son las pruebas de teoría de la mente? Son pruebas diseñadas por psicólogos para medir el estado mental y/o emocional de una persona durante interacciones sociales

Investigaciones previas han demostrado que los humanos utilizan una variedad de señales para comunicar su estado mental a otros, con el objetivo de transmitir información sin ser explícitos.

Investigaciones anteriores también han mostrado que los humanos son expertos en captar estas señales, algo que otros animales no logran. Por ello, muchos en el campo consideran imposible que una computadora pase tales pruebas. 

Los tests

El equipo de investigación probó varios LLMs para ver cómo se comparaban con un grupo de humanos que realizaban las mismas pruebas. Los investigadores analizaron datos de 1,907 voluntarios que tomaron pruebas estándar de teoría de la mente y compararon los resultados con Modelos Grandes, como Llama 2-70b y GPT-4

Ambos grupos respondieron cinco tipos de preguntas, diseñadas para medir aspectos como un desliz, ironía o la veracidad de una afirmación. También respondieron preguntas de «falsa creencia» que a menudo se administran a niños.

Los investigadores encontraron que los LLMs igualaban frecuentemente el desempeño de los humanos, y a veces lo superaban. Específicamente, encontraron que GPT-4 fue el mejor en cinco tipos principales de tareas, mientras que Llama 2-70b tuvo resultados muy dispares, destacando en algunas áreas y quedando por detrás en otras.

Según los investigadores, el experimento muestra que los LLMs pueden salir comparativamente bien en pruebas de teoría de la mente, aunque no sugieren que estos modelos sean tan inteligentes o intuitivos como los humanos en general.

Salir de la versión móvil