Wissenschaftliche Meldungen
Große Sprachmodelle im Härtetest: KI scheitert an echter Wissenschaft
26.12.25, 20:16
Künstliche Intelligenz

Neuer Benchmark testet KI dort, wo es für Wissenschaft wirklich zählt
Große Sprachmodelle wie ChatGPT oder vergleichbare Systeme gelten als vielseitige Werkzeuge: Sie schreiben Texte, fassen Studien zusammen und beantworten komplexe Fragen in Sekunden. Doch eine neue Untersuchung zeigt nun deutlich, wo ihre Grenzen liegen – nämlich genau dort, wo Wissenschaft beginnt. Ein neu entwickelter Benchmark hat erstmals systematisch geprüft, wie gut solche Modelle reale Forschungsaufgaben bewältigen. Das Ergebnis fällt ernüchternd aus.
Während klassische KI-Tests vor allem Sprachverständnis, logisches Schließen oder mathematische Aufgaben bewerten, richtet sich dieser Ansatz gezielt auf wissenschaftliche Praxis. Die getesteten Modelle sollten eigenständig Forschungsideen entwickeln, geeignete Methoden vorschlagen, Versuchsdesigns entwerfen und Ergebnisse kritisch einordnen. In fast allen Punkten blieben sie deutlich hinter menschlichen Forschenden zurück.
Sprachkompetenz ersetzt kein wissenschaftliches Verständnis
Besonders auffällig ist die Diskrepanz zwischen sprachlicher Eloquenz und inhaltlicher Belastbarkeit. Die Modelle formulieren plausible Hypothesen und methodisch klingende Vorschläge, übersehen jedoch häufig grundlegende fachliche Probleme. Versuchsaufbauten sind oft unrealistisch, wichtige Kontrollvariablen fehlen oder etablierte Erkenntnisse werden falsch interpretiert. In mehreren Testfällen schlugen die Systeme Experimente vor, die physikalisch unmöglich oder ethisch nicht vertretbar wären.
Die Ursache liegt im Funktionsprinzip der Modelle. Sie generieren Texte auf Basis statistischer Muster aus Trainingsdaten, nicht auf Grundlage eines eigenen Verständnisses von Naturgesetzen oder Kausalzusammenhängen. Wissenschaftliches Arbeiten erfordert jedoch genau dieses Verständnis – ebenso wie die Fähigkeit, Unsicherheiten zu erkennen und gezielt nach fehlenden Informationen zu suchen.
Gefahr der Schein-Expertise im Forschungsalltag
Für die Forschungspraxis ist dieses Ergebnis ambivalent. Einerseits können Sprachmodelle Forschende effektiv unterstützen, etwa bei Literaturrecherchen, beim Strukturieren von Ideen oder beim Formulieren von Anträgen. Andererseits bergen sie das Risiko einer trügerischen Sicherheit. Gut klingende, aber inhaltlich fehlerhafte Vorschläge können gerade bei Zeitdruck oder in interdisziplinären Projekten unkritisch übernommen werden.
Die Autorinnen und Autoren der Studie warnen deshalb ausdrücklich davor, KI-Systeme als eigenständige Forschungspartner zu betrachten. Ohne fachliche Kontrolle durch Expertinnen und Experten könnten sich Fehler unbemerkt fortpflanzen – insbesondere in frühen Phasen der Hypothesenbildung, die den weiteren Forschungsweg maßgeblich prägen.
Werkzeug statt Wissenschaftler
Der neue Benchmark macht deutlich, dass große Sprachmodelle derzeit vor allem leistungsfähige Assistenzsysteme sind. Sie können Prozesse beschleunigen und Zugänge erleichtern, ersetzen aber weder wissenschaftliche Kreativität noch kritisches Denken. Fortschritte in Richtung „autonomer Forschung“ seien prinzipiell denkbar, erforderten jedoch völlig neue Ansätze, die über reine Sprachmodellierung hinausgehen.
Für die aktuelle Debatte um KI in der Wissenschaft liefert die Studie damit eine wichtige Einordnung. Nicht Sensation, sondern Nüchternheit ist angebracht: KI kann Forschung unterstützen – aber sie betreibt sie nicht.
Weitere aktuelle Meldungen findest du hier:
- 2Seite 2










