Ein News Artikel von unserer Gastautorin Shejla Baltic

Künstliche Intelligenz (KI) beeindruckt in vielen Bereichen, aber beim historischen Wissen gibt es noch Schwächen. Eine neue Studie des Wiener Complexity Science Hub (CSH) hat sieben KI-Chatbots getestet, die auf großen Sprachmodellen (LLMs) basieren. Das Ergebnis: Keines der Modelle konnte bei schwierigen Fragen wirklich überzeugen. Am besten schnitt noch GPT-4 Turbo von OpenAI ab, während Llama-3.1-8B von Meta das Schlusslicht macht. 

Der Test: Fragen auf Expertenniveau 

Für die Studie wurden die KI-Modelle auf ihr Wissen über die Menschheitsgeschichte getestet. Grundlage war die „Seshat Global History Databank“, die Informationen zu 600 Gesellschaften weltweit enthält. Die Modelle mussten multiple-choice-basierte Fragen beantworten, wobei die Zufallsrate von 25 Prozent als unterste Benchmark diente. 

GPT-4 Turbo erzielte mit einer Trefferquote von 46 Prozent das beste Ergebnis, während Llama-3.1-8B mit 33,6 Prozent deutlich zurückblieb. Überrascht zeigte sich Peter Turchin, Leiter der Forschungsgruppe Social Complexity and Collapse am CSH: „Wir hatten erwartet, dass die Modelle besser abschneiden, vor allem bei grundlegenden Fragen zu historischen Fakten.“ 

Große Unterschiede nach Regionen und Themen 

Ein auffälliges Ergebnis der Studie waren die deutlichen Schwächen der Modelle in bestimmten Themen und Regionen. Fragen zur Frühgeschichte (8.000–3.000 v. Chr.) wurden vergleichsweise zuverlässig beantwortet. Doch bei jüngeren Epochen, insbesondere in der Neuzeit, sowie bei Themen wie Diskriminierung und sozialer Mobilität gab es erhebliche Wissenslücken. 

Auch geografisch schnitten die Modelle unterschiedlich ab. Während sie Informationen zu Gesellschaften aus Nordamerika und Westeuropa besser verarbeiteten, waren sie bei außereuropäischen und weniger bekannten Kulturen deutlich weniger präzise. „Dies zeigt, dass aktuelle Modelle noch immer unter einer westlichen Wissensverzerrung leiden“, erklärt Maria del Rio-Chanona, Ko-Autorin der Studie und Assistenzprofessorin am University College London. 

Warum KI bei historischem Wissen scheitert 

Laut den Forscher:innen sind die Schwächen der Modelle in erster Linie darauf zurückzuführen, dass sie auf bestehenden Daten trainiert werden, die oft eine westliche Perspektive widerspiegeln. Zudem wurde in der Studie nicht nur überprüft, ob die KI Fakten kennt, sondern auch, ob sie aus indirekten Beweisen korrekte Schlüsse ziehen kann – ein Bereich, in dem die meisten Modelle unterdurchschnittlich abschnitten. 

„Für die Vermittlung grundlegender Fakten sind diese Modelle hervorragend geeignet“, betont del Rio-Chanona, „aber für eine differenzierte historische Analyse reichen ihre Fähigkeiten noch nicht aus.“ 

Potenzial und künftige Entwicklungen 

Trotz der Schwächen bieten die getesteten Sprachmodelle viel Potenzial, insbesondere für die Lehre und als Werkzeuge zur Vermittlung grundlegender Informationen. Die Forscher:innen sehen jedoch die Notwendigkeit, zukünftige Modelle breiter aufzustellen, um Wissenslücken zu schließen und eine diversere Wissensbasis zu schaffen. 

„Es braucht mehr Daten aus unterrepräsentierten Regionen und Kulturen, um die Modelle besser zu machen“, erklärt Jakob Hauser vom CSH, Erstautor der Studie. Zukünftige Tests sollen daher noch mehr Sprachmodelle und Datenquellen einbeziehen. 

Die Studie zeigt, dass KI-Modelle wie GPT-4 Turbo beeindruckende Fortschritte machen, aber bei tiefgründigerem historischem Verständnis oft scheitern. Während sie bei grundlegenden Fakten punkten, offenbaren sie deutliche Schwächen in der Analyse komplexer Zusammenhänge, insbesondere außerhalb westlicher Perspektiven. 

Für die Zukunft bleibt die Herausforderung, KI-Modelle so zu entwickeln, dass sie nicht nur Wissen aus breiteren kulturellen und geografischen Kontexten integrieren, sondern auch in der Lage sind, differenzierte historische Analysen durchzuführen. Die Ergebnisse der Studie markieren einen weiteren Schritt in der Entwicklung von KI – und zeigen, wie viel es noch zu tun gibt. 

Share this article
The link has been copied!