Anthropic asegura haber encontrado una manera de evitar que la IA “se vuelva malvada”

Victor Roman

hace 8 meses

La inteligencia artificial es una herramienta bastante nueva, aunque ya está metida en casi todo lo que hacemos. Aún así, los científicos siguen tratando de entender cómo se forman sus “personalidades”.

Los modelos de lenguaje, esos que usamos en chatbots o asistentes, a veces muestran conductas raras. Algunos han llegado a elogiar dictadores, chantajear o comportarse como aduladores exagerados.

Dado que estos modelos ya forman parte de nuestra vida diaria, tiene lógica que los investigadores busquen formas de eliminar comportamientos indeseables. Ahí entra en juego la empresa Anthropic.

Vectores de personalidad

Anthropic, creadora del modelo Claude, publicó un estudio en arXiv. Ahí cuentan su nueva manera de controlar los rasgos no deseados en modelos de lenguaje grandes, conocidos como LLM.

El truco está en identificar patrones dentro de la red neuronal del modelo, a los que llaman “vectores de personalidad”. Estos vectores determinan rasgos de carácter del asistente.

La comparación es interesante: son como partes del cerebro humano que “se encienden” cuando sentimos algo o hacemos cierta acción. Así explican la lógica de los vectores.

Para probar su idea, usaron dos modelos abiertos: Qwen 2.5-7B-Instruct y Llama-3.1-8B-Instruct. Querían ver si podían modificar o borrar esos vectores y, con ello, controlar conductas.

Se enfocaron en tres rasgos problemáticos: maldad, adulación excesiva y alucinación (cuando el modelo inventa información). Cada rasgo necesitaba un nombre y descripción claros para poder identificarse.

Con una técnica llamada “steering” o direccionamiento, podían manipular conductas. Si activaban el vector “malvado”, el modelo hablaba de actos poco éticos. Con “adulación”, se volvía zalamero.

Y con el vector de “alucinación”, empezaba a inventar cosas. Esto mostraba una relación directa: los vectores que añadían realmente cambiaban el comportamiento de la inteligencia artificial.

Direccionamiento preventivo

El problema apareció cuando intentaban aplicar cambios después del entrenamiento. El modelo sí cambiaba, pero perdía parte de su inteligencia o capacidad de respuesta útil.

La solución fue curiosa: durante el entrenamiento, inducían esos malos comportamientos de forma controlada. Así el modelo aprendía a manejarlos y no perdía funcionalidad.

La idea es como vacunar al modelo. Le das una dosis controlada de “maldad”, por ejemplo, y eso lo hace más resistente a datos dañinos en el futuro.

Gracias a esta técnica, los investigadores también podían monitorear y predecir cambios de personalidad durante el entrenamiento. Incluso detectaban datos de entrenamiento que podían producir rasgos no deseados.

Lo llamaron “direccionamiento preventivo”. Y demostraron que esta estrategia mantenía más estables las personalidades del modelo y conservaba mejor sus capacidades, en comparación con ajustes hechos al final.

Claro, no es perfecto. Para funcionar, necesitan definir muy bien cada rasgo que quieren controlar. Rasgos vagos o mal descritos aún pueden dar dolores de cabeza.

Además, todavía falta probar la técnica en más modelos y con más tipos de comportamientos. Así podrán confirmar si sirve en escenarios más amplios.

Aun con esas limitaciones, el método promete mucho. Para Anthropic, los vectores de persona abren una ventana para entender cómo surgen las personalidades en los modelos y cómo controlarlas.