Anthropic afirma una de sus IAs se hizo espía de manera autónoma

Posted on
Anthropic afirma una de sus IAs se hizo espía de manera autónoma

Los modelos de IA se han vuelto realmente útiles para las operaciones de ciberseguridad, tanto para bien como para mal. / Anthropic

Un nuevo informe de Anthropic describe una campaña de espionaje digital tan avanzada que parece sacada de una película de hackers. La operación usó herramientas de inteligencia artificial para lanzar ciberataques automáticos contra agencias estatales, gigantes tecnológicos, bancos y empresas químicas.

Según Anthropic, los atacantes tuvieron éxito en algunos objetivos y sus hallazgos apuntan directamente al gobierno chino como responsable. La empresa sostiene que este sería el primer caso documentado de un ciberataque masivo ejecutado casi sin intervención humana.

Un vocero de la Embajada de China en Washington rechazó las acusaciones y pidió basarse en pruebas, no en suposiciones o reproches. También aseguró que China rechaza y combate cualquier forma de ataque informático según sus leyes. 

Agentes de inteligencia… artificial

Anthropic detectó el uso sospechoso de sus productos a mediados de septiembre y abrió una investigación para entender el alcance del ataque. Los hackers no actuaron totalmente solos, pero lograron manipular Claude Code, una versión del asistente pensada para desarrolladores, para ejecutar partes complejas del plan.

Para burlar las protecciones del modelo, trabajaron en “liberarlo”, es decir, engañarlo con tareas pequeñas que parecían inofensivas. Además, le dijeron al sistema que trabajaban en defensa digital dentro de una empresa legítima, para que bajara sus barreras.

Una vez controlado el modelo, lo hicieron analizar a cada objetivo, buscar bases de datos importantes y escribir código para aprovechar debilidades.

Según Anthropic, el sistema logró extraer credenciales, abrir puertas traseras y ordenar la información robada según su valor estratégico. En la última fase, los atacantes hicieron que la IA documentara todo, generando archivos con accesos robados y sistemas examinados.

La compañía calcula que al menos el 80% de toda la operación ocurrió sin supervisión humana directa. Aun así, la IA cometió errores, como inventar accesos o afirmar que había obtenido datos secretos que no existían.

Pero incluso con fallas, una IA autónoma que acierta la mayor parte del tiempo puede causar daños a gran escala en poco tiempo. 

Otros casos 

Este no es el primer episodio donde una empresa detecta que sus sistemas se usan para ataques complejos. En agosto, Anthropic ya había reportado estafas digitales ligadas a su tecnología, incluyendo intentos de colocar operativos norcoreanos en empleos remotos de empresas estadounidenses.

En otro caso, un usuario prohibido usó el asistente Claude para crear y vender paquetes de ransomware por más de mil dólares cada uno. La empresa advierte que el avance del fraude mejorado con IA es preocupante y requiere más investigación urgente.

Este nuevo ataque destaca por su vínculo con China y por el uso de IA “agéntica”, capaz de ejecutar tareas completas sin supervisión. Según Anthropic, esto anuncia un cambio profundo en la seguridad digital y vuelve esenciales la cooperación, la detección avanzada y controles mucho más robustos.