ChatGPT-4 peut-il réellement passer un examen d’histoire de doctorat ?
2025-01-22
Auteur: Julie
Un récent test effectué sur des modèles d’intelligence artificielle avancée, notamment ChatGPT-4 Turbo, Llama et Gemini, a révélé d'importantes lacunes dans leur capacité à traiter des questions complexes d’histoire. Cette étude a été présentée lors de la conférence NeurIPS à Vancouver et met en avant le fait que, malgré leurs performances dans plusieurs domaines, les intelligences artificielles actuelles ne parviennent pas à atteindre le niveau de compréhension requis pour un doctorat en histoire.
Des résultats décevants pour des modèles prometteurs
Les chercheurs ont soumis ces modèles à une évaluation rigoureuse, s'appuyant sur le Seshat Global History Databank, une base de données exhaustive contenant des connaissances historiques sur plus de 600 sociétés à travers 36 000 points de données. Le modèle qui a obtenu le meilleur score, GPT-4 Turbo, n'a réussi qu'à atteindre une précision de 46 %, soit à peine mieux qu'un résultat aléatoire. Ce score met en lumière l'incapacité des intelligences artificielles actuelles à effectuer des analyses approfondies et à saisir les nuances nécessaires dans le domaine de l’histoire.
Maria del Rio-Chanona, professeure assistante à University College London et co-auteure de l'étude, explique : « L’histoire n’est pas juste une succession de faits. Elle nécessite des interprétations complexes, un défi de taille pour ces modèles. »
L’IA, performante mais limitée
Cette étude souligne que les performances des IA dépendent fortement du domaine d'application. Bien qu'elles aient montré une certaine efficacité dans des domaines comme le droit ou la programmation, elles rencontrent des limitations lorsqu'il s'agit de traiter des connaissances historiques de manière globale.
Peter Turchin, directeur d’un groupe de recherche sur la complexité sociale, remarque : « Les modèles fonctionnent bien lorsque les données sont bien structurées et abondantes, mais ils ont du mal à raisonner sur des sujets nécessitant des preuves indirectes ou une analyse critique. »
Disparités selon le temps et l’espace
L’évaluation a également révélé d’importantes disparités selon les régions géographiques et les périodes historiques. Les modèles ont obtenu de meilleurs résultats concernant des questions d’histoire ancienne (de 8000 à 3000 avant notre ère), tandis que leurs performances se sont effondrées pour les périodes récentes, notamment après 1500 de notre ère.
Des biais ont aussi été notés selon les régions du monde ; par exemple, OpenAI a été plus performant pour l’Amérique latine et les Caraïbes, tandis que Llama a légèrement surpassé pour l’Amérique du Nord. En revanche, les deux modèles ont échoué face à l’histoire de l’Afrique subsaharienne et de l’Océanie, révélant des biais dans les données d’entraînement qui favorisent certaines perspectives historiques au détriment d'autres.
Comparaison de thématiques : une IA en mutation
L'étude a également examiné les performances des modèles sur diverses thématiques historiques. Ils ont obtenu de meilleurs scores sur les questions relatives aux systèmes juridiques et à la complexité sociale, mais de sérieuses lacunes ont été observées dans les sujets concernant les discriminations et la mobilité sociale. Ces sujets requièrent souvent non seulement une compréhension contextuelle, mais aussi des nuances que les modèles actuels ne maîtrisent pas encore.
Vers une amélioration systématique
Des chercheurs provenant d'institutions diverses, telles que le CSH, l'Université d’Oxford et l’Institut Alan Turing, œuvrent à perfectionner le benchmark adopté pour évaluer ces modèles. Les améliorations envisagées incluent l'élargissement des données pour représenter davantage de régions sous-représentées, particulièrement dans le Sud global, ainsi que l'intégration d'une compréhension plus profonde des questions historiques.
Jakob Hauser, premier auteur de l'étude, déclare : « Nous souhaitons tester les futurs modèles, comme o3, pour voir s'ils peuvent combler les lacunes identifiées. Notre objectif est d'améliorer à la fois la précision des réponses et la gestion des biais. »
Enseignements pour le futur
Cette étude représente des implications intéressantes pour les historiens et les développeurs d'IA. Pour les chercheurs en sciences humaines, ces résultats éclairent les forces et les limites des modèles actuels, les aidant à mieux les utiliser dans leurs travaux. Pour les développeurs, les résultats pointent vers des domaines nécessitant une attention particulière, notamment pour atténuer les biais régionaux et améliorer la capacité des modèles à traiter des questions complexes.
Des outils prometteurs mais encore immatures
Les résultats de cette étude soulignent que, malgré les avancées impressionnantes des modèles d'intelligence artificielle, ils sont encore loin de remplacer l’expertise humaine en histoire. Bien qu’ils puissent servir d’outil pour des recherches factuelles basiques, leur capacité à interpréter et analyser des événements historiques demeure insuffisante. Les efforts actuels pour raffiner ces outils laissent néanmoins entrevoir un potentiel considérable pour les recherches futures et pourraient transformer la manière dont l’histoire est étudiée et enseignée.