Technologie

Schockierende Ergebnisse: Künstliche Intelligenz ChatGPT scheitert bei Geschichtstest auf Doktoratsniveau – Wissenschaftler sind fassungslos!

2025-01-22

Autor: Nina

Ein bahnbrechendes Experiment des Complexity Science Hubs

hat ergeben, dass GPT-4 Turbo in einem Geschichtstest auf PhD-Niveau durchfällt und die meisten Fragen nicht korrekt beantwortet. Dies wirft ernste Fragen zur Leistungsfähigkeit aktueller KI-Modelle auf, insbesondere im Hinblick auf komplexe historische Analysen.

Leitende Untersuchung und Ergebnisse

Die Untersuchung, geleitet von Peter Turchin, dem Verantwortlichen der Social Complexity and Collapse-Gruppe am CSH, zeigt, dass KI-Modelle besonders bei jüngeren Epochen und außerhalb westlicher Regionen gravierende Wissenslücken aufweisen. Während die Modelle in der Frühgeschichte bessere Ergebnisse erzielten, brachen ihre Leistungen in den letzten Jahrhunderte dramatisch ein – am schlechtesten schnitt die KI bei Fragen zur Geschichte nach 1500 n. Chr. ab.

Vergleich mit echten Historikern

Lebensnahe Tests mit echten Historikern zeigen variierende Ergebnisse: Während die KI bei alten Zivilisationen wie den Mesopotamiern oder Ägyptern punktete, scheiterten sie, wenn es um moderne historische Kontexte oder die Interpretation von Ereignissen ging. Co-Autorin Maria del Rio-Chanona erklärt: „Geschichte ist oft mehr als nur Daten. Es erfordert eine tiefere Interpretation, um sie wirklich zu verstehen.“

Relevanz für Bildungseinrichtungen

Diese Erkenntnisse sind besorgniserregend, insbesondere da KI zunehmend in Bildungsinstitutionen eingesetzt wird. Turchin und sein Team betonen, dass diese Technologien nicht nur zur Wissensvermittlung, sondern auch zur kritischen Analyse von sozialen und historischen Strukturen genutzt werden sollten – wofür sie jedoch noch nicht bereit sind.

Diskrepanz zwischen KI-Modellen und geografische Verzerrungen

Die Ergebnisse zeigen auch größere Diskrepanzen zwischen verschiedenen KI-Modellen. OpenAI's Modelle schnitten in Lateinamerika und der Karibik überraschend gut ab, während Llama in Nordamerika besser abschnitt. Besonders besorgniserregend sind die variierenden Leistungen in Bezug auf geografische Regionen, was auf Verzerrungen in den Trainingsdaten hindeuten könnte.

Fazit und Ausblick

Zusammenfassend lässt sich sagen: Obwohl KI-Modelle beeindruckend sein mögen, haben sie noch einen langen Weg zur Verbesserung ihrer Fähigkeiten in der Geschichtswissenschaft vor sich. Die Untersuchung wirft nicht nur Fragen über ihre gegenwärtige Eignung für historische Analysen auf, sondern regt auch zu einem Gespräch über die Grenzen von KI im akademischen Kontext an. Wird die KI der Zukunft in der Lage sein, komplexe historische Themen zu meistern, oder bleibt sie ein Werkzeug für einfache Fakten? Die Zeit wird es zeigen!