Investigadores encontraron que la IA entrenada con contenido basura es menos “inteligente” 

Posted on
Investigadores encontraron que la IA entrenada con contenido basura es menos “inteligente” 

Una IA tan, pero tan, tonta que mira su smartphone al revés. / Robototitus/Gemini

A simple vista, parece lógico pensar que entrenar una IA con datos de buena calidad mejora su rendimiento. Pero un grupo de investigadores quiso medir cuánto daño puede causar alimentarla con basura digital.

El estudio, hecho por las universidades de Texas A&M, Texas y Purdue, parte de una idea curiosa: los humanos que consumen mucho contenido trivial en internet pierden atención, memoria y empatía.

De ahí nació lo que llaman la “hipótesis del deterioro mental de las IA”, que sugiere que entrenarlas continuamente con texto basura provoca una especie de declive cognitivo artificial. 

Contenido “basura”

La parte difícil de la tarea fue definir qué es exactamente “texto basura”. Para eso, los investigadores analizaron 100 millones de tuits de HuggingFace, separando entre contenido trivial y de calidad.

Como la adicción a internet genera deterioro en personas, los tuits basura serían los que maximizan la interacción con temas superficiales y poco esfuerzo intelectual.

Así, crearon un primer conjunto de datos basura con tuits cortos y muy populares: muchos “me gusta”, retuits y respuestas. Cuanto más breves y virales, más “chatarra” eran.

Luego usaron otra medida, inspirada en el marketing, llamada “calidad semántica”. Con ayuda de GPT-4o, buscaron tuits sobre temas banales o escritos con estilo sensacionalista. El modelo clasificó millones de mensajes y un grupo de estudiantes revisó una muestra: el 76 % coincidió con la evaluación automática, una tasa aceptable para seguir adelante.

Con esos datos listos, entrenaron cuatro modelos distintos mezclando diferentes proporciones de datos basura y datos controlados. Luego midieron su razonamiento, memoria y ética. 

Contenido contaminado 

Los resultados fueron claros. Mientras más basura incluían en el entrenamiento, peor razonaban los modelos y más floja era su memoria a largo plazo. En otros aspectos, los efectos fueron menos directos. Por ejemplo, un modelo Llama 8B con mitad de datos basura obtuvo mejores puntajes en ética y rasgos de personalidad equilibrados.

Aun así, los autores advierten que confiar demasiado en datos de internet puede contaminar los modelos y afectar su rendimiento con el tiempo. Por eso recomiendan revisar cómo se recopila y limpia la información usada para entrenar IA, evitando acumulación de errores y degradación progresiva.

El problema puede agravarse si las futuras IA se entrenan con contenido generado por otras IA, creando un círculo vicioso de “colapso de modelos”. Al final, la expresión “eres lo que comes” no solo se aplica a la comida… o a los humanos.