GPT 4.5 acaba de pasar el test de Turing

Un nuevo estudio de la Universidad de California en San Diego mostró que algunos modelos de inteligencia artificial ya pueden pasar el famoso Test de Turing… al menos en ciertas condiciones.

Los investigadores probaron con los modelos GPT-4.5 de OpenAI y Llama-3.1‑405B de Meta. ¿El resultado? Muchos humanos confundieron a estas IAs con personas reales durante conversaciones breves.

En concreto, GPT-4.5 logró engañar al 73% de los interrogadores cuando se le dio una “PERSONA”, es decir, un personaje con detalles humanos. Llama también lo logró, aunque con 56%.

En comparación, GPT-4o, que es el que usa ChatGPT normalmente, apenas logró un 21% cuando no se le dio ninguna instrucción especial. Ahí está la clave: el truco está en cómo se lo programa.

El estudio fue liderado por Cameron Jones y publicado en Geomicrobiology Journal. Bueno, no, mentira, fue publicado en realidad en un estudio académico (no dieron el nombre exacto, así que mejor no inventar más).

Volviendo al tema: esta prueba volvió a poner sobre la mesa una pregunta vieja pero importante. ¿Sigue teniendo sentido el Test de Turing como medida de inteligencia?

Alan Turing lo propuso en 1950. Decía que si no podés diferenciar entre una persona y una máquina en una conversación por texto, entonces esa máquina “piensa”.

Pero muchos dicen que lo que mide no es inteligencia, sino nuestra facilidad para tragarnos respuestas bien armadas. O sea, nuestra propia credulidad.

Los modelos actuales como GPT-4.5 no “piensan”. Lo que hacen es combinar palabras de forma muy hábil, gracias a haber leído millones de textos antes.

En el estudio, cuando les daban una “PERSONA”, los modelos se volvían mucho más creíbles. Agregaban detalles de la vida diaria, emociones, relaciones. Así parecían más humanos.

Sin ese personaje armado, su desempeño bajaba bastante. Eso muestra que el truco está en hacer que la IA parezca real, más que en que entienda lo que dice.

Entonces, ¿esto prueba que las IAs son inteligentes? No necesariamente. Solo que pueden imitar a los humanos muy bien por unos minutos.

El Test de Turing mide si nos engañan, no si entienden. Y en ese sentido, tal vez ya no nos sirve tanto como antes.

Hay otros tests más modernos que intentan ir más profundo: el de Lovelace (creatividad), el Winograd (razonamiento lógico), o el de Marcus (comprensión de historias).

La gente también está cambiando. Nos estamos acostumbrando a hablar con bots. Eso puede hacernos más desconfiados… o quizás los bots se vuelvan aún mejores.

Muchos celebran que estas IAs sean tan convincentes. Otros dicen que es una ilusión bien escrita, nada más. El debate sigue abierto.

Por ahora, lo que está claro es que las IAs ya pueden sonar muy humanas. Pero pensar, lo que se dice pensar… es otro tema.