Incluso los modelos de inteligencia artificial más potentes alucinan

Posted on
Incluso los modelos de inteligencia artificial más potentes alucinan

Robotitus/DALLE·3

Un estudio reciente realizado por investigadores de la Universidad de Cornell, las universidades de Washington y Waterloo, y el instituto de investigación sin fines de lucro AI2, ha revelado que todos los modelos de inteligencia artificial generativa tienden a «alucinar», es decir, a generar información falsa. 

La investigación, disponible en el sitio de pre-impresión ArXiv, comparó varios modelos populares, como GPT-4o de OpenAI, Llama 3 de Meta y otros, para evaluar su precisión en temas que van desde la ley y la salud hasta la historia y la geografía. 

Los resultados indican que ninguno de los modelos evaluados logró un desempeño excepcional en todos los temas. Además, aquellos que presentaron menos alucinaciones lo hicieron en parte porque se negaron a responder preguntas que probablemente hubieran contestado incorrectamente. 

Wenting Zhao, coautora del estudio, señaló que «no podemos confiar plenamente en los resultados generados por estos modelos, ya que incluso los mejores solo pueden generar texto libre de alucinaciones aproximadamente el 35% de las veces». 

Nuevas preguntas

El estudio también destaca que las pruebas anteriores, realizadas por otros grupos de investigación, no lograron capturar la complejidad de las preguntas más difíciles, ya que a menudo se limitaban a consultas con respuestas fácilmente disponibles en Wikipedia, una fuente que la mayoría de los modelos ya conocen bien. 

Para superar esta limitación, los investigadores diseñaron un conjunto de pruebas que incluyó preguntas sobre temas sin referencias en Wikipedia Cubrieron áreas como la cultura, la geografía, la astronomía, la cultura popular, las finanzas, la medicina y la ciencia computacional.

Los modelos evaluados no mostraron una mejora significativa en la reducción de alucinaciones, a pesar de las afirmaciones de OpenAI, Anthropic y otros grandes actores de la IA generativa.  Los modelos de OpenAI, aunque fueron los menos propensos a alucinar, no lograron superar a otros modelos en la prueba. 

Las preguntas sobre celebridades y finanzas resultaron ser las más difíciles para los modelos, mientras que las preguntas sobre geografía y ciencias computacionales fueron las más fáciles de responder. 

¿Sin solución?

La investigación sugiere que la eliminación total de alucinaciones en modelos de IA generativa podría no ser posible en el corto plazo.  

Una solución intermedia podría ser programar a los modelos para que se abstengan de responder más a menudo cuando no están seguros, aunque esto podría afectar su utilidad. Además, es necesario involucrar a expertos humanos en el proceso de verificación de la información generada por estos modelos.