ChatGPT Versagt im Geschichtstest: Die Schockierenden Ergebnisse der KI-Forschung
2025-01-22
Autor: Sofia
Eine aktuelle Studie des Complexity Science Hubs in Österreich hat verblüffende Ergebnisse zum historischen Wissen von KI-Modellen wie GPT-4 Turbo ergeben. Bei einem Geschichtstest auf PhD-Niveau durchfiel die KI, indem sie die meisten Fragen nicht korrekt beantwortete. Besonders auffällig war die schwache Leistung in Bezug auf jüngere Epochen und außerhalb westlicher Regionen, was die Wissenschaftler alarmierte und Fragen zur Tauglichkeit von KI für komplexe historische Analysen aufwarf.
Das Complexity Science Hub (CSH), das seit 2016 besteht, wurde mit einer Vielzahl von Partnerinstitutionen gegründet, darunter renommierte Hochschulen und Forschungseinrichtungen. Der Leiter der CSH-Gruppe für soziale Komplexität, Peter Turchin, erläuterte, dass große Sprachmodelle beeindruckende Leistungen in bestimmten Bereichen zeigen, während sie in Bezug auf das Verständnis historischer Gesellschaften, insbesondere außerhalb Nordamerikas und Westeuropas, erhebliche Schwächen zeigen.
Die Studienergebnisse waren sowohl für das Forschungsteam als auch für die KI-Community schockierend. Obwohl GPT-4 Turbo in einigen Tests eine Trefferquote von 46 Prozent erreichte – besser als die zufällige Rate von 25 Prozent – ist dies angesichts der Komplexität der Themen immer noch unzureichend. Maria del Rio-Chanona, Co-Autorin der Studie, merkte an, dass Geschichte oft mehr als nur Fakten erfordert; es ist auch eine tiefere Interpretation notwendig, um die Bedeutung hinter diesen Fakten zu verstehen.
Die Tests zeigten, dass die KI bei Fragen zur Frühgeschichte bis zu einem gewissen Grad brauchbare Antworten gab. Ab dem Jahr 1500 n. Chr. jedoch klappte es merklich schlechter. Besonders in Bezug auf Lateinamerika und Afrika zeigten die KI-Modelle große Leistungsunterschiede, was möglicherweise auf Verzerrungen in den Trainingsdaten hinweisen könnte. Diese Ergebnisse werfen ein beunruhigendes Licht auf die Eignung solcher KI für die historische Forschung und die Herausforderungen im Verständnis komplexer, regional spezifischer Narrative.
Die Verantwortung der Forscher ist es nun, diese Herausforderungen zu adressieren und sicherzustellen, dass künftige KI-Modelle nicht nur kontextuelle Informationen bereitstellen, sondern auch in der Lage sind, historische Narrative differenziert zu interpretieren. Die Frage bleibt: Wird die KI je in der Lage sein, die Nuancen und Komplexitäten der Geschichte korrekt zu erfassen, oder bleibt sie auf der Strecke, während die Menschheit sich weiter entwickelt?