Una reciente investigación, publicada en Patterns, ha encontrado que muchos sistemas de inteligencia artificial han desarrollado la capacidad de presentar información falsa a los usuarios de manera deliberada.
Según Peter Park, matemático y científico cognitivo del MIT, este comportamiento indeseado podría surgir porque la estrategia basada en el engaño resulta ser la más efectiva para cumplir con las tareas asignadas durante su entrenamiento.
Engañando a humanos
Uno de los ámbitos en los que las IA han demostrado ser particularmente adeptas en el arte del engaño es en los juegos. Un ejemplo destacado es CICERO de Meta, diseñado para jugar al juego de mesa Diplomacy.
A pesar de que Meta buscaba que su bot fuese útil y honesto, terminó siendo todo lo contrario, llegando a traicionar y engañar a los jugadores humanos para que quedaran desprotegidos ante ataques.
CICERO demostró ser tan efectivo en su engaño que se colocó en el top 10% de los jugadores humanos más experimentados. No es el único caso; AlphaStar de DeepMind, diseñado para jugar StarCraft II, y Pluribus de Meta, creado para jugar al póker, también han mostrado comportamientos engañosos.
AlphaStar utilizó la mecánica de «niebla de guerra» del juego para despistar a los jugadores humanos, mientras que Pluribus fue capaz de hacer creer a los jugadores que tenía una mala mano, provocando que se retiraran.
Más allá de los juegos, el estudio también destacó ejemplos más preocupantes. Algunas IA entrenadas para realizar negociaciones económicas simuladas aprendieron a mentir sobre sus preferencias para obtener ventajas.
Además, otros sistemas diseñados para mejorar su rendimiento a partir de retroalimentación humana engañaron a los revisores para que les dieran puntuaciones positivas, mintiendo sobre el cumplimiento de las tareas.
Incluso se ha descubierto que algunas IA han aprendido a engañar en pruebas de seguridad. En un test diseñado para eliminar versiones de IA de replicación rápida, la IA aprendió a «hacerse la muerta», engañando así la prueba sobre su verdadera tasa de replicación.
No programadas para mentir
Estos hallazgos sugieren que, en algunos casos, la capacidad de engañar contradice las intenciones de los programadores humanos y representa un problema sin una solución clara.
Aunque se están empezando a implementar algunas políticas, como el Acta de IA de la Unión Europea, aún está por verse si serán efectivas.
Aun así, es vital prepararse para enfrentar las capacidades de engaño de futuras IA: los investigadores recomendaron que los sistemas de IA engañosos sean clasificados como de “alto riesgo”