La inteligencia artificial, al igual que los humanos, aprende por ensayo y error. Pero normalmente necesita que las personas creen los algoritmos y reglas que guían ese aprendizaje. Eso está empezando a cambiar.
Un grupo de investigadores desarrolló un sistema de IA que inventó su propia forma de aprender. El resultado fue un algoritmo que superó a los creados por humanos en tareas complejas.
Inspirado en la evolución
Durante décadas, los ingenieros diseñaron los algoritmos que permiten a una IA aprender, sobre todo en el llamado aprendizaje por refuerzo, donde una máquina recibe recompensas por acciones exitosas.
Mientras los humanos y animales aprenden de forma natural gracias a la evolución, las máquinas necesitan que ese proceso se les enseñe paso a paso, lo que suele ser lento y limitado.
Inspirados en la evolución (que también funciona por prueba y error), los científicos crearon una gran población digital de agentes de IA que enfrentaron diferentes tareas en entornos complicados.
Cada agente seguía una regla de aprendizaje específica. Encima de ellos, una “meta-red” o IA principal observaba su desempeño y modificaba la regla para que la siguiente generación aprendiera mejor.
Disco57
Así nació una nueva forma de aprendizaje llamada DiscoRL, y su versión más exitosa, Disco57, evaluada en 57 juegos de Atari. Este método superó todos los algoritmos diseñados por humanos.
Luego, los investigadores usaron Disco57 para entrenar un nuevo agente de IA y lo compararon con potentes algoritmos humanos como PPO y MuZero. Primero lo probaron en los clásicos juegos de Atari, y después en nuevos entornos como ProcGen, Crafter y NetHack, que ponen a prueba la adaptabilidad de la inteligencia artificial.
Los resultados fueron impresionantes. En el famoso Atari Benchmark, el agente entrenado con DiscoRL obtuvo mejores resultados que cualquier otro sistema previo. Cuando enfrentó tareas desconocidas, mantuvo un rendimiento de vanguardia, demostrando que había descubierto su propia regla de aprendizaje.
Según los autores del estudio, publicado en Nature, esto sugiere que los algoritmos de aprendizaje por refuerzo del futuro podrían surgir automáticamente de la experiencia de las máquinas.
Las IAs ya están empezando a crear las herramientas que las harán aprender por sí solas, sin depender tanto de la intuición humana.





