Un estudio publicado en la revista Nature advierte sobre los peligros de utilizar datos generados por inteligencia artificial (IA) para entrenar futuras generaciones de modelos de aprendizaje automático. A este fenómeno se le conoce como colapso de modelo.
La investigación revela que, en pocas generaciones, el contenido original es reemplazado por información sin sentido, subrayando la importancia de utilizar datos confiables para entrenar estos modelos.
Data de entrenamiento
Las herramientas de IA generativa, como los grandes modelos de lenguaje (LLM), han ganado popularidad y, en su mayoría, han sido entrenadas con insumos generados por humanos.
Sin embargo, a medida que estos modelos proliferan en Internet, existe el riesgo de que el contenido generado por computadora se utilice para entrenar otros modelos de IA, o incluso a sí mismos, en un bucle recursivo.
Ilia Shumailov y sus colegas presentan modelos matemáticos que ilustran cómo los modelos de IA pueden experimentar colapso de modelo. Los autores demuestran que una IA puede pasar por alto ciertos resultados (por ejemplo, líneas de texto menos comunes) en los datos de entrenamiento, provocando que se entrene solo con una parte del conjunto de datos.
Los investigadores también investigaron cómo respondían los modelos de IA a un conjunto de datos de entrenamiento creado predominantemente por inteligencia artificial.
Descubrieron que alimentar a un modelo con datos generados por IA hace que las generaciones sucesivas degraden su capacidad de aprendizaje, conduciendo eventualmente al colapso de modelo.
Casi todos los modelos de lenguaje entrenados de forma recursiva que probaron tendían a mostrar frases repetitivas. Por ejemplo, en una prueba utilizando texto sobre arquitectura medieval como insumo original, para la novena generación el resultado fue una lista de liebres de campo.
¿La razón?
Los autores proponen que el colapso de modelo es un resultado inevitable en los modelos de IA que utilizan conjuntos de datos de entrenamiento creados por generaciones anteriores.
Sí se puede entrenar con éxito a la IA con sus propios resultados, pero Shumailov y sus colegas sugieren que la filtración de esos datos debe ser tomada muy en serio.
Al mismo tiempo, las empresas tecnológicas que dependen de contenido generado por humanos podrían ser capaces de entrenar modelos de IA que sean más efectivos que los de sus competidores.