Icono del sitio Robotitus

Las IAs son irracionales solo que no como nosotros

Ilustración de un robot dando la espalda. / Robotitus/Playground

Investigadores de University College London (UCL) han descubierto que los modelos de lenguaje grandes utilizados en plataformas de inteligencia artificial generativa ofrecen respuestas diferentes al enfrentar las mismas pruebas de razonamiento y no mejoran al recibir contexto adicional.

La investigación, publicada en la Royal Society Open Science, evaluó la capacidad de razonamiento de los modelos grandes más avanzados mediante pruebas de psicología cognitiva. 

Los resultados subrayan la importancia de entender cómo «piensan» estas inteligencias artificiales antes de confiarles tareas, especialmente aquellas que implican la toma de decisiones.

El estudio

En los últimos años, los modelos que impulsan aplicaciones de IA generativa se han vuelto cada vez más sofisticados, capaces de producir textos, imágenes, audio y video realistas. Sin embargo, también han demostrado ser propensos a fabricar información, responder de manera inconsistente y cometer errores en cálculos simples.

El estudio de UCL analizó sistemáticamente si siete Modelos de Lenguaje eran capaces de razonamiento racional. Se utilizaron 12 pruebas comunes de psicología cognitiva, incluyendo la tarea de Wason, el problema de Linda y el problema de Monty Hall

Los modelos mostraron irracionalidad en muchas de sus respuestas, proporcionando respuestas variadas a la misma pregunta repetida y cometiendo errores simples. Por ejemplo, las respuestas correctas a la tarea de Wason variaron desde un 90% para GPT-4 hasta un 0% para GPT-3.5 y Google Bard. Llama2 de 70b, que acertó un 10% de las veces, confundió la letra K con una vocal, respondiendo incorrectamente. 

Aunque la mayoría de los humanos también fallarían en responder correctamente esta tarea, es poco probable que lo hagan por no saber qué es una vocal.

«Es seguro decir que estos modelos no ‘piensan’ como los humanos”, dijo Olivia Macmillan-Scott, primera autora del estudio“Sin embargo, el modelo con el mayor conjunto de datos, GPT-4, mostró un mejor desempeño, lo que sugiere mejoras rápidas. Pero es difícil decir cómo razona este modelo porque es un sistema cerrado», añadió.

Reflexión

Algunos modelos se negaron a responder por razones éticas, a pesar de que las preguntas eran inocuas, posiblemente debido a parámetros de seguridad mal ajustados. 

Aunque se proporcionó contexto adicional, los LLMs no mostraron una mejora consistente en sus respuestas. Lo interesante es que no entendemos realmente el comportamiento emergente de estos modelos y por qué aciertan o fallan. 

Esto nos hace reflexionar sobre cómo razonamos y nuestros propios sesgos, y si queremos máquinas completamente racionales o que cometan errores como nosotros.

Salir de la versión móvil