Wissenschaftliche Meldungen

Große Sprachmodelle im Härtetest: KI scheitert an echter Wissenschaft

26.12.25, 20:16

Künstliche Intelligenz

Ein realistisches 1:1-Titelbild: Links ein humanoider KI-Roboter mit leuchtenden Augen, der mit einer Lupe Reagenzgläser und eine DNA-Helix untersucht; rechts ein überforderter menschlicher Wissenschaftler im Labor, der nachdenklich auf Forschungspapiere blickt. Im Hintergrund Formeln und wissenschaftliche Symbole. Große, kontrastreiche Schlagzeile im Bild: „KI im Realitätscheck! Warum KI noch KEINE echte Forschung betreibt! Neuer Test entlarvt die Schwächen der Sprachmodelle.“

Neuer Benchmark testet KI dort, wo es für Wissenschaft wirklich zählt

Große Sprachmodelle wie ChatGPT oder vergleichbare Systeme gelten als vielseitige Werkzeuge: Sie schreiben Texte, fassen Studien zusammen und beantworten komplexe Fragen in Sekunden. Doch eine neue Untersuchung zeigt nun deutlich, wo ihre Grenzen liegen – nämlich genau dort, wo Wissenschaft beginnt. Ein neu entwickelter Benchmark hat erstmals systematisch geprüft, wie gut solche Modelle reale Forschungsaufgaben bewältigen. Das Ergebnis fällt ernüchternd aus.

Während klassische KI-Tests vor allem Sprachverständnis, logisches Schließen oder mathematische Aufgaben bewerten, richtet sich dieser Ansatz gezielt auf wissenschaftliche Praxis. Die getesteten Modelle sollten eigenständig Forschungsideen entwickeln, geeignete Methoden vorschlagen, Versuchsdesigns entwerfen und Ergebnisse kritisch einordnen. In fast allen Punkten blieben sie deutlich hinter menschlichen Forschenden zurück.

Sprachkompetenz ersetzt kein wissenschaftliches Verständnis

Besonders auffällig ist die Diskrepanz zwischen sprachlicher Eloquenz und inhaltlicher Belastbarkeit. Die Modelle formulieren plausible Hypothesen und methodisch klingende Vorschläge, übersehen jedoch häufig grundlegende fachliche Probleme. Versuchsaufbauten sind oft unrealistisch, wichtige Kontrollvariablen fehlen oder etablierte Erkenntnisse werden falsch interpretiert. In mehreren Testfällen schlugen die Systeme Experimente vor, die physikalisch unmöglich oder ethisch nicht vertretbar wären.

Die Ursache liegt im Funktionsprinzip der Modelle. Sie generieren Texte auf Basis statistischer Muster aus Trainingsdaten, nicht auf Grundlage eines eigenen Verständnisses von Naturgesetzen oder Kausalzusammenhängen. Wissenschaftliches Arbeiten erfordert jedoch genau dieses Verständnis – ebenso wie die Fähigkeit, Unsicherheiten zu erkennen und gezielt nach fehlenden Informationen zu suchen.

Gefahr der Schein-Expertise im Forschungsalltag

Für die Forschungspraxis ist dieses Ergebnis ambivalent. Einerseits können Sprachmodelle Forschende effektiv unterstützen, etwa bei Literaturrecherchen, beim Strukturieren von Ideen oder beim Formulieren von Anträgen. Andererseits bergen sie das Risiko einer trügerischen Sicherheit. Gut klingende, aber inhaltlich fehlerhafte Vorschläge können gerade bei Zeitdruck oder in interdisziplinären Projekten unkritisch übernommen werden.

Die Autorinnen und Autoren der Studie warnen deshalb ausdrücklich davor, KI-Systeme als eigenständige Forschungspartner zu betrachten. Ohne fachliche Kontrolle durch Expertinnen und Experten könnten sich Fehler unbemerkt fortpflanzen – insbesondere in frühen Phasen der Hypothesenbildung, die den weiteren Forschungsweg maßgeblich prägen.

Werkzeug statt Wissenschaftler

Der neue Benchmark macht deutlich, dass große Sprachmodelle derzeit vor allem leistungsfähige Assistenzsysteme sind. Sie können Prozesse beschleunigen und Zugänge erleichtern, ersetzen aber weder wissenschaftliche Kreativität noch kritisches Denken. Fortschritte in Richtung „autonomer Forschung“ seien prinzipiell denkbar, erforderten jedoch völlig neue Ansätze, die über reine Sprachmodellierung hinausgehen.

Für die aktuelle Debatte um KI in der Wissenschaft liefert die Studie damit eine wichtige Einordnung. Nicht Sensation, sondern Nüchternheit ist angebracht: KI kann Forschung unterstützen – aber sie betreibt sie nicht.

Quelle anzeigen

< zur Übersicht

Weitere aktuelle Meldungen findest du hier:

3
Seite 2

Illustration einer fernen Spiralgalaxie mit einem supermassereichen Schwarzen Loch im Zentrum, aus dem auf beiden Seiten leuchtend orange-rote Gasjets über Tausende Lichtjahre hinausschießen. Auf dem Bild steht der Text: ‚Gigantische Gas-Jets in Nachbargalaxie entdeckt!‘ sowie ‚Kosmische Eruptionen enthüllen die Macht eines Schwarzen Lochs!‘ und der Hinweis ‚Wissenschaftswelle.de‘.

Schwarzen-Loch-Jet enthüllt: Webb misst Ausstoß von Energie in Höhe von 10 Quintillionen Wasserstoffbomben pro Sekunde

11.1.26, 20:30

Astronomie, Kosmologie

Wissenschaftswelle.de

Gratis Newsletter erhalten

Wissenschaftliche Meldungen

Große Sprachmodelle im Härtetest: KI scheitert an echter Wissenschaft

Neuer Benchmark testet KI dort, wo es für Wissenschaft wirklich zählt

Sprachkompetenz ersetzt kein wissenschaftliches Verständnis

Gefahr der Schein-Expertise im Forschungsalltag

Werkzeug statt Wissenschaftler

Weitere aktuelle Meldungen findest du hier:

Schwarzen-Loch-Jet enthüllt: Webb misst Ausstoß von Energie in Höhe von 10 Quintillionen Wasserstoffbomben pro Sekunde

Selbstheilende Kristalle: Neuer Mechanismus überwindet Kälte-Grenzen

Digitale Abhängigkeit neu gedacht: Warum einzelne Symptome wichtiger sein können als der Gesamtscore

Uni Münster: Rektor mahnt zum Schutz unabhängiger Wissenschaft in Krisenzeiten

Raumfahrt 2026: Warum dieses Jahr entscheidend für Mond, Mars und neue Teleskope wird

Fast alle Schülerinnen und Schüler in Seoul nutzen KI – Lehrkräfte warnen vor Abhängigkeit

Psychologie der Distanz: Weshalb sich viele vom Klimawandel weniger betroffen fühlen als andere

Wenn der Lieblingsverein enttäuscht: Studie zeigt, wie Wut und Scham Fan-Treue nach Skandalen prägen

Wie vergangene Erdwärmung künftigen Regen prägt: Mehr Extremes, weniger Regelmäßigkeit

Überraschende Influenza-Studie: Selbst bei engem Kontakt keine Ansteckung

Schlafen weniger als 7 Stunden: Neue Studie verknüpft Schlafdefizit mit geringerer Lebenserwartung

Massenaussterben neu bewertet: Warum Ammoniten nicht sofort verschwanden

Wenn Geld verbindet – neue Forschung zeigt, wie finanzielle Werte in Paarbeziehungen das berufliche Glück von Männern prägen

Warum die Genomforschung Geschlecht neu denken muss

Wenn der Orgasmus Tränen bringt – Studie zeigt überraschende Vielfalt weiblicher Reaktionen

Ein fast vollständiger Fund aus der Eisenzeit wirft neues Licht auf keltische Kriegskultur

Hubble-Beobachtungen bestätigen „gescheiterte Galaxie“ ohne Sterne

Laser erzeugt Rekord-Neutronenfluss – Hoffnung auf kompakte Alternativen zu Großanlagen

Wie sehr formt die frühe Umwelt das Risiko für ADHS? Neue Langzeitbefunde aus einer 17-jährigen Studie

Mpox im Wandel: Warum neue Viruslinien eine erneute globale Ausbreitung begünstigen könnten

Rhein-Müll unterschätzt: Warum bei Köln täglich rund 53.000 Teile Richtung Nordsee treiben

Neutrophile im „Nachtmodus“: Wie die innere Uhr von Immunzellen Herzinfarktschäden begrenzen könnte

Nvidia-Chef nennt Roboter „AI-Immigrants“ und sieht sie als Lösung für den Arbeitskräftemangel

Wie künstliche Intelligenz historische Texte, Kultur und Sprache neu erschließt

Astronomy’s Platypus: Webb entdeckt neue Klasse von Galaxien im frühen Universum

Wenn Moral weh tut: Wie sexuelle Schuldgefühle mit Sexualproblemen zusammenhängen können

Influencer statt Journalisten: Wie der Wandel der Science-News in der MENA-Region das Wissenschaftsverständnis gefährdet

Wenn Ozeane zum Motor werden: Warum die Brutstätten für Super-Hurrikans wachsen

Wie ein künstlicher Stoffwechsel CO₂-Abgase in Rohstoffe umwandelt

Sozinianer-Schriften online: Großprojekt will die Wurzeln der Aufklärung neu vermessen

Monogamie ist nicht automatisch überlegen: Große Übersichtsarbeit stellt verbreiteten Beziehungsmythos infrage

Begleitstern formt Betelgeuse: Neue Erklärung für das rätselhafte Verhalten des Riesen

Neue Impfstoff-Generation: Welche medizinischen Fortschritte 2026 möglich werden

Kranke Ameisenpuppen senden ein „Tötet-mich“-Signal – zum Schutz des gesamten Nests

Wie der Grönlandhai sein Sehvermögen bewahrt: Neue Daten aus Genom und Netzhaut

NMDA trifft Serotonin: Chinesische Forschende melden neue Wirkstoffklassen gegen neurologische Erkrankungen

Vitamin-A-Signal als Immunbremse: Neuer Wirkstoffkandidat soll Tumore angreifbarer machen

Exoplaneten, neue Teleskope, ferne Galaxien: Das wichtigste Astronomie-Treffen des Jahres beginnt

Wenn Quantenpaare „fremdgehen“: Wie Teilchenverhältnisse die Beweglichkeit in Materialien sprunghaft verändern

Parkinson-Medikament: Schlüsselmechanismus im Gehirn entschlüsselt – Wege zu wirksameren Therapien

Roter Schnee in der Antarktis: Algenblüten bedecken teils riesige Flächen – und könnten Schmelze verstärken

Arktis im Wandel: Studie findet neuen Mechanismus hinter dem wachsenden Atlantik-Einfluss in der Barentssee

Pflanzen binden weniger CO₂ als gedacht – warum Klimamodelle den Düngungseffekt überschätzen

Sieben Millionen Jahre alt: Fossil liefert neue Indizien für frühen aufrechten Gang

Personalisierte Mammografie: WISDOM-Studie zeigt sicherere Brustkrebs-Früherkennung nach Risiko

Chemie nach dem Vorbild der DNA: Neue Kunststoffe sollen sich gezielt selbst zersetzen

Technosignaturen im All: Wie Forschende nach Spuren außerirdischer Technologie suchen

Digital Health vor dem Durchbruch: Warum 2026 zum Schlüsseljahr werden könnte

Gehirnzellen in Echtzeit eingefroren: Leipziger Forschende machen Synapsen sichtbar

Asteroidencrash im Nachbarsternsystem: Hubble liefert direkte Spuren einer kosmischen Kollision

2026: Die Menschheit kehrt zum Mond zurück – was die Artemis-Mission leisten soll

Mittelalterlicher Tsunami in der Karibik: Korallen belegen Mega-Erdbebenrisiko

Genvariante könnte vor bestimmten Blutkrebserkrankungen schützen

Afrikas älteste Feuerbestattung: Eine Gemeinschaft am Scheiterhaufen vor 9.500 Jahren

Ein Planet ohne Stern: Forscher messen erstmals Masse und Entfernung eines frei fliegenden Planeten

Schwarze Löcher in Bewegung: Forschende wollen erstmals 3D-Filme erzeugen

Wie Borkenkäfer Baumabwehr in Waffen verwandeln – und Pilze zurückschlagen

Orang-Utans brauchen Kultur, um richtig essen zu lernen – neue Studie zeigt Grenzen des Alleingangs

Wolfsmond und Jupiter: Erster Supervollmond des Jahres am Abendhimmel

Cannabis bei chronischen Schmerzen: Mäßige Linderung, deutliche Nebenwirkungen

TSMC startet Massenproduktion von 2-Nanometer-Chips – neuer Meilenstein der Halbleiterindustrie

Schlafapnoe-Risiko und Psyche: Studie findet deutlich mehr Depression und Belastung bei Über-45-Jährigen

Wenn Roboter zurückzucken wie Menschen: Elektronische Haut erkennt Schmerz und Verletzungen in Echtzeit

Unsichtbare Chemiewolken aus Plastik: Wie Mikroplastik Gewässer still verändert

Warum die Grippe gerade so schnell steigt: Was über „Subclade K“ bekannt ist

Kunst, Fürsorge, Technik: Neue Studien verändern das Bild der Neandertaler

SpaceX knackt den nächsten Rekord: 165 Orbitalstarts 2025 – wie Wiederverwendung die Raumfahrt beschleunigt

Einstein-Bohr-Gedankenexperiment im Labor: Warum Interferenz verschwindet, wenn Weginformation möglich wird

Evolution im Stresstest: Simulationen zeigen, wie stark der Verlauf von der Reihenfolge der Umweltwechsel abhängt

Kontinente trocknen aus: Weltbank warnt vor jährlichem Süßwasserverlust in Rekordhöhe

Olympus Mons: Neue Strukturen stellen Entstehung des größten Mars-Vulkans infrage

Zufallsfund in der Tiefsee: 16.-Jahrhundert-Schiff verändert das Bild der Mittelmeergeschichte