Strawberry: el proyecto de OpenAI para darle raciocinio a las IA

Victor Roman

hace 2 años

OpenAI, la empresa creadora de ChatGPT, está desarrollando un nuevo enfoque para sus modelos de inteligencia artificial bajo el proyecto denominado «Strawberry», según informó Reuters.

El proyecto Strawberry surge en un momento en que OpenAI se apresura para demostrar que sus modelos son capaces de ofrecer capacidades avanzadas de razonamiento. El funcionamiento de Strawberry se mantiene en secreto incluso dentro de OpenAI.

Strawberry

Un documento al que tuvo acceso Reuters describe un proyecto que utiliza modelos con el objetivo de permitir que la IA no solo genere respuestas, sino que también planifique y navegue por internet de manera autónoma y confiable. A este proceso, OpenAI le llama «investigación profunda». Esta capacidad ha sido elusiva para los modelos de IA hasta la fecha, según expertos investigadores en inteligencia artificial.

Strawberry, anteriormente conocido como Q*, ya era considerado dentro de la empresa como un importante avance. Dos fuentes describieron haber visto demostraciones de Q* a principios de este año, capaces de responder preguntas complejas de ciencia y matemáticas que los modelos disponibles comercialmente no podían resolver.

En una reunión interna reciente, OpenAI realizó una demostración de un proyecto de investigación que, según afirmó, tenía nuevas habilidades de razonamiento similar al humano. Además, espera que esta innovación mejore drásticamente las capacidades de razonamiento de sus modelos de IA, involucrando un método especializado de procesamiento después del entrenamiento inicial de los modelos con grandes conjuntos de datos.

Los investigadores coinciden en que mejorar el razonamiento en los modelos de IA es clave para permitir que estos realicen descubrimientos científicos importantes y desarrollen nuevas aplicaciones de software. Aunque los modelos actuales pueden resumir textos densos y componer prosa elegante rápidamente, a menudo fallan en problemas de sentido común.

Post-entrenamiento

Strawberry es un componente crucial del plan de OpenAI para superar estos desafíos, utilizando un método especializado conocido como «post-entrenamiento» para afinar el rendimiento de los modelos.

Este método se asemeja a una técnica desarrollada en Stanford en 2022 llamada «Self-Taught Reasoner» o «STaR», que permite a los modelos de IA mejorar su inteligencia a través de la creación iterativa de sus propios datos de entrenamiento.

Entre las capacidades que se espera lograr con Strawberry está la realización de tareas complejas a largo plazo que requieren planificación y ejecución de una serie de acciones durante un período extendido. Para ello, OpenAI está creando, entrenando y evaluando los modelos con un conjunto de datos de «investigación profunda».