
¡Revelación Impactante! Dos 'chatbots' de IA logran superar el test de Turing y son indistinguibles de los humanos
2025-04-06
Autor: Carlos
Los chatbots de inteligencia artificial (IA), como ChatGPT, han sido creados con la misión de replicar el habla humana de manera tan precisa como sea posible, buscando mejorar la experiencia del usuario. Sin embargo, con cada avance en la tecnología, se hace más difícil diferenciar entre estos modelos de IA y las personas reales. Un reciente estudio lo confirma: la ciencia ha llegado a una conclusión sorprendente.
Investigadores de la Universidad de California en San Diego (UCSD) han publicado un estudio que demuestra que dos de los chatbots más populares han alcanzado un importante hito: tanto GPT, el motor detrás de ChatGPT de OpenAI, como LLaMa, desarrollado por Meta AI para plataformas como WhatsApp y Facebook, han logrado superar el famoso test de Turing.
Creado por el matemático Alan Turing en la década de 1950, el test de Turing -también conocido como el 'juego de imitación'- es una medida estándar para evaluar la inteligencia de una máquina. Un sistema de IA pasa este test cuando las personas no pueden discernir correctamente entre sus respuestas y las de un humano.
"Los resultados ofrecen la primera evidencia empírica de que estos sistemas han superado una prueba de Turing estándar en tres partes", afirma el equipo de científicos de UCSD. "Si los evaluadores no pueden distinguir con confianza entre un humano y una máquina, la máquina se considera que ha pasado la prueba", añaden.
El experimento que llevó a esta conclusión fue bastante innovador. Los investigadores utilizaron cuatro modelos de IA: GPT-4.5, que fue lanzado en febrero, GPT-4o, su predecesor, LLaMa, y un chatbot retro conocido como ELIZA, que data de la década de 1960.
Los primeros tres son considerados 'modelos de lenguaje grande' (LLM), que emplean algoritmos de aprendizaje profundo para generar texto basándose en enormes conjuntos de datos. Durante el estudio, reclutaron a 126 estudiantes de UCSD y a 158 personas de la plataforma Prolific, quienes mantuvieron conversaciones de cinco minutos con un participante humano y con uno de los chatbots, sin saber cuál era cuál.
Los resultados fueron sorprendentes: cuando se les pidió a los modelos de IA que asumieran una personalidad humana, GPT-4.5 fue considerado humano el 73% de las veces, superando incluso a los participantes humanos reales. En cuanto a LLaMa-3.1, alcanzó una tasa del 56% en su "disfraz" humano, lo cual, aunque no tuvo un impacto significativo frente a los humanos, también fue considerado un aprobado en el contexto de este test.
Por otro lado, los modelos de referencia, ELIZA y GPT-4o, lograron tasas de éxito notoriamente inferiores al azar, con un 23% y un 21% respectivamente. Esto demuestra la efectividad de los modelos avanzados frente a sus predecesores.
Un dato interesante: cuando se les dio instrucciones más simples a los modelos, su rendimiento disminuyó drásticamente, lo que señala la importancia de la preparación adecuada de los chatbots. Recienten el estudio, que fue publicado como preimpresión, se presenta como una "evidencia sólida" de que los bots de OpenAI y Meta han superado la prueba de Turing, un avance que podría redefinir cómo interactuamos con la IA en el futuro.
Cameron Jones, el autor principal del estudio, enfatizó en un hilo de X la necesidad de considerar esto como una pieza dentro del amplio rompecabezas de evidencia que representa la inteligencia de los LLM. Aunque reconoce que las IA se desempeñaron mejor cuando se les especificó que debían imitar a seres humanos, esto no menoscaba el hecho de que GPT-4.5 y LLaMa han logrado superar un hito significativo en la historia de la inteligencia artificial, desdibujando las líneas entre humanos y máquinas.