Der erste Gutachter rechnet längst mit: Wo KI im Peer Review hilft und wo sie Autorität vortäuscht

Benjamin Metzig
vor 2 Minuten
6 Min. Lesezeit

Wissenschaftswelle-Cover mit gelber Überschrift KI PRÜFT PAPERS, rotem Banner URTEIL BLEIBT MENSCHLICH und einer leuchtenden KI-Linse, die ein wissenschaftliches Manuskript mit Diagrammen und roten Prüfmarkierungen scannt.

Wer heute ein wissenschaftliches Manuskript einreicht, wartet oft nicht erst auf die erste menschliche Rückmeldung. Schon vorher laufen Ähnlichkeitsprüfungen, formale Checks, manchmal Bild- und Statistik-Screenings, zunehmend auch sprach- und strukturbezogene KI-Tools. Der erste Blick auf einen neuen Text ist in vielen Fällen also längst technisch.

Das ist weder automatisch gut noch automatisch bedrohlich. Das eigentliche Problem beginnt an einer präziseren Stelle: wenn aus nützlicher Vorprüfung stillschweigend eine Art maschinisches Urteilsversprechen wird. Genau dort verschiebt sich Peer Review von einer entlastenden Infrastruktur zu einem riskanten Autoritätsersatz.

Kernaussagen

KI-gestützte Prüfungen sind im Peer Review vor allem dort stark, wo es um standardisierbare Aufgaben wie Ähnlichkeitsabgleiche, formale Inkonsistenzen oder nachrechenbare Statistik geht.
Diese Systeme können Fehler und Auffälligkeiten sichtbar machen, die unter Zeitdruck von Menschen leicht übersehen werden.
Gerade daraus entsteht eine gefährliche Versuchung: Ein maschinischer Treffer wirkt schnell objektiver, tiefer und endgültiger, als er tatsächlich ist.
Wissenschaftliche Qualität ist aber mehr als formale Korrektheit. Neuheit, Relevanz, Methodenangemessenheit und argumentative Fairness lassen sich nicht einfach aus Textmustern oder Scores ablesen.
Ein belastbares Peer-Review-Modell mit KI ist deshalb kein automatischer Ersatzgutachter, sondern ein enger Hybrid: Technik prüft vor, Menschen urteilen offen verantwortlich.

Der erste Filter ist längst technisch

Wer über KI im Begutachtungsprozess spricht, stellt sich oft sofort die große Zukunftsfrage: Werden Maschinen bald wissenschaftliche Gutachten schreiben? Praktisch relevanter ist zunächst etwas Nüchterneres. Schon heute beginnt Peer Review vielerorts mit technischen Vorentscheidungen: Textähnlichkeit, formale Vollständigkeit, Metadaten, Bildauffälligkeiten, Referenzmuster, teilweise auch statistische Konsistenz.

Dass Redaktionen diese Entlastung suchen, ist nicht überraschend. Das Review-System steht seit Jahren unter Druck. Wer den institutionellen Hintergrund nachlesen will, findet ihn bereits in unserem Beitrag über Peer Review als unperfektes Kontrollsystem. Neu ist heute weniger die Existenz von Vorprüfungen als ihre Breite und ihr Anspruch.

Wie uneinheitlich diese neue Praxis geregelt ist, zeigt eine Auswertung der Top-100-Medizinjournale in JAMA Network Open. Dort hatten zwar 78 Prozent der Journale überhaupt Leitlinien zum KI-Einsatz im Review, aber innerhalb dieser Gruppe reichten die Regeln von begrenzter Zulassung bis zum ausdrücklichen Verbot. Besonders auffällig: 91 Prozent untersagten das Hochladen von Manuskriptinhalten in KI-Tools. Schon daran sieht man, dass das Thema nicht nur Effizienz betrifft, sondern Vertraulichkeit, Verantwortlichkeit und institutionelles Vertrauen.

Die Praxis läuft also der Norm oft voraus. Genau das passt zu einer Forschungslandschaft, in der Texte immer früher zirkulieren, wie wir schon beim Thema Preprints und Öffentlichkeit vor dem Urteil beschrieben haben. Wenn Veröffentlichung, Vorprüfung und fachliche Begutachtung zeitlich stärker auseinanderdriften, wächst der Druck, wenigstens Teile der Qualitätskontrolle zu automatisieren.

Was Maschinen tatsächlich gut können

Die stärkste Seite algorithmischer Unterstützung liegt nicht im großen Urteil, sondern im geduldigen, wiederholbaren Abarbeiten enger Prüfaufgaben. Genau dort sind Maschinen oft nützlicher als ihr Ruf und zugleich viel begrenzter als ihre Werbung.

Ein gutes Beispiel ist die automatisierte Statistikprüfung. Werkzeuge wie JATSdecoder extrahieren gemeldete Testergebnisse aus Artikeln, rechnen p-Werte nach und markieren Inkonsistenzen oder unvollständig berichtete Befunde. Solche Systeme verstehen keine Theorie. Aber sie können etwas anderes: Sie halten routiniert dort an, wo Form und Zahl nicht sauber zusammenpassen.

Das ist mehr als bloße Pedanterie. Gerade in Literaturen mit hoher Publikationsdichte und standardisierten Testformen können solche Prüfungen helfen, Berichtsfehler überhaupt erst sichtbar zu machen. Sie sind damit eine Art Plausibilitätsseismograf: kein Wahrheitsdetektor, aber ein Instrument, das Unruhe registriert. Ähnlich verhält es sich mit Ähnlichkeitsprüfungen, Referenzmustern oder strukturierten Checks auf fehlende Ethikangaben und Transparenzhinweise.

Auch generative Modelle können bei Teilaufgaben nützlich sein. In einer groß angelegten Analyse zu wissenschaftlichem Feedback fanden Liang und Kollegen in einer oft zitierten Studie, dass GPT-4 bei etlichen Kommentaren durchaus Punkte aufgriff, die auch menschliche Reviewer nennen. Das ist kein Beweis, dass ein Modell „versteht“, was gute Forschung ist. Es zeigt aber, dass maschinische Rückmeldungen bei Struktur, Klarheit, offensichtlichen Schwächen oder fehlenden Begründungsschritten einen realen Gebrauchswert haben können.

Die nüchterne Schlussfolgerung lautet deshalb nicht: KI kann kein Peer Review. Sie lautet: KI kann einige Review-Aufgaben erstaunlich brauchbar entlasten, solange diese Aufgaben eng genug definiert sind.

Merksatz: Prüfen ist nicht urteilen

Ein System kann Widersprüche, Wiederholungen, fehlende Angaben oder statistische Auffälligkeiten markieren, ohne deshalb zu wissen, ob eine Studie originell, sauber designt oder wissenschaftlich relevant ist.

Warum Statistikprüfung noch kein Verständnis ist

Gerade weil maschinelle Checks nützlich sein können, ist die nächste Unterscheidung so wichtig. Formale Plausibilität ist nicht dasselbe wie wissenschaftliche Tragfähigkeit.

Ein korrekt nachgerechneter p-Wert beantwortet nicht, ob die Fragestellung sinnvoll war, ob die Operationalisierung trägt, ob Störfaktoren unterschätzt wurden oder ob die Schlussfolgerung den Daten angemessen ist. Ein Modell kann melden, dass ein Resultat formal sauber berichtet wurde, und trotzdem nichts darüber wissen, ob das Design eine schlechte Frage mit großer Eleganz beantwortet. Das ist ein fundamentaler Unterschied.

Hier berührt das Thema eine ältere Wissenschaftsgeschichte. Zahlen wirken schnell neutral, aber sie kommen nie ohne Auswahl, Kategorien und implizite Wertungen aus. Unser Artikel über die Statistik der Eugenik zeigt genau diese Gefahr: Mathematische Form kann Autorität erzeugen, auch wenn die begriffliche und moralische Grundlage faul ist. Für das heutige Peer Review heißt das: Rechenstärke schützt nicht vor Fehlurteilen, wenn die falschen Dinge gemessen oder die richtigen Fragen gar nicht gestellt werden.

Dasselbe gilt für KI-Feedback. Ein Modell kann eine schwache Begründung glatt formulieren, fehlende Übergänge verbessern oder auf Standardprobleme hinweisen. Aber Neuheit ist keine Textoberfläche. Methodische Angemessenheit ist kein Stilmerkmal. Ein origineller Einwand gegen die bestehende Literatur oder ein unsauber kaschierter Kausalitätsfehler liegen oft gerade in dem Bereich, in dem Erfahrung, Feldkenntnis und intellektuelle Skepsis zählen.

Deshalb ist der starke Einsatzbereich technischer Tools ausgerechnet ein Argument gegen ihre Überdehnung. Wer eine Maschine dort ernst nimmt, wo sie streng definierte Prüfarbeit zuverlässig leistet, sollte sie gerade nicht zur allgemeinen Bewertungsinstanz aufblasen.

Wo algorithmische Bewertung kippt

Die kritische Schwelle ist erreicht, wenn maschinische Unterstützung nicht mehr als Vorprüfung verstanden wird, sondern als Abkürzung zum Urteil. Dann entstehen neue Risiken, die nicht nur alte menschliche Fehler wiederholen, sondern eigene Angriffsflächen schaffen.

Das sichtbarste Beispiel ist Manipulierbarkeit. Eine Studie in JAMA Network Open von 2026 testete, wie anfällig LLM-gestützte Review-Szenarien für unsichtbare Texteinschleusungen sind. Das Ergebnis war unangenehm konkret: Versteckte Instruktionen konnten Bewertungen künstlich anheben und die Fähigkeit zur Fehlererkennung verschlechtern. Ein System, das eigentlich kritisch prüfen soll, ließ sich also durch für Menschen unsichtbare Signale umlenken.

Damit wird aus einem Assistenzproblem ein Governance-Problem. Wenn Redaktionen nicht offenlegen, welche maschinischen Hilfen in welchen Schritten eingesetzt werden, entstehen blinde Zonen der Verantwortung. Dann ist für Autorinnen, Autoren und manchmal sogar für Reviewer selbst kaum noch erkennbar, ob eine Warnung, ein Score oder eine Ablehnung auf fachlichem Urteil, enger Vorprüfung oder einem unsauberen Mix aus beidem beruht.

Hinzu kommt ein klassisches Vertraulichkeitsproblem. Die COPE-Richtlinien für Reviewer bestehen nicht zufällig auf Verschwiegenheit und klarer Verantwortlichkeit. Wer unveröffentlichte Manuskripte in fremde Systeme einspeist, verschiebt die Begutachtung technisch nach außen. Selbst wenn das praktisch bequem ist, ändert es die ethische Lage des Review-Prozesses.

Und schließlich gibt es ein Wahrnehmungsproblem. Maschinelle Ergebnisse wirken oft sachlicher, weil sie aus einem Tool kommen. Genau deshalb brauchen sie mehr, nicht weniger Einordnung. Das kennen wir auch aus anderen Bereichen, etwa dort, wo forensische KI Spuren analysiert: Ein technischer Befund kann extrem nützlich sein, aber er wird erst im Zusammenspiel mit Kontext, Methodik und dokumentierter Prüfung belastbar.

Ein brauchbarer Hybrid ist enger, nicht größer

Die vernünftige Zukunft des Peer Review liegt deshalb wahrscheinlich nicht im maschinellen Ersatzgutachter, sondern in einer strikteren Arbeitsteilung. Gute Systeme sollten weniger versprechen und dafür klarer definiert sein.

Plausibel automatisierbar sind vor allem Aufgaben wie:

formale Vollständigkeitschecks
Ähnlichkeits- und Redundanzprüfungen
Bild- und Strukturauffälligkeiten
statistische Konsistenz in standardisierten Berichtsformaten
sprachliche Verdichtung oder Vorstrukturierung von Review-Notizen, sofern dies offengelegt und regelkonform geschieht

Nicht automatisierbar im starken Sinn bleiben dagegen Fragen wie:

Ist die Forschungsfrage relevant oder nur modisch?
Trägt das Design die behauptete Schlussfolgerung?
Ist die Arbeit im Feld wirklich neu?
Sind die Einwände fair gewichtet?
Welche Unsicherheit ist sachlich angemessen?

Genau deshalb ist es interessant, dass ein aktuelles Frontiers-Whitepaper zur KI-Nutzung im Review zwar eine weite Verbreitung solcher Tools beschreibt, aber zugleich darauf hinweist, dass nur ein kleiner Teil der Nutzung in anspruchsvollere methodische oder statistische Prüfung hineinreicht. Die Realität ist also nüchterner als manche Debatte: Vieles, was heute als „KI im Peer Review“ firmiert, ist eher Assistenz an der Oberfläche als automatisiertes wissenschaftliches Urteil.

Das ist keine Enttäuschung, sondern wahrscheinlich die gesündere Richtung. Ein robustes System braucht nicht die Illusion, dass Maschinen Forschung bewerten wie erfahrene Fachleute. Es braucht Werkzeuge, die sauber markieren, was markierbar ist, und Menschen, die am Ende offen dafür geradestehen, wie sie diese Signale gewichtet haben.

Warum diese Grenze für Vertrauen wichtiger wird

Je mehr Forschung beschleunigt, vorveröffentlicht, nachgenutzt und algorithmisch sortiert wird, desto wichtiger wird nicht nur die Qualität von Ergebnissen, sondern auch die Lesbarkeit ihrer Prüfpfade. Vertrauen wächst dann nicht aus blindem Technikoptimismus und auch nicht aus romantischer Menschenverehrung. Es wächst aus nachvollziehbarer Zuständigkeit. Genau an dieser Stelle berührt das Thema unsere frühere Frage nach Vertrauen in Wissenschaft: Nicht der Ausschluss von Zweifel macht Systeme glaubwürdig, sondern die transparente Art, wie sie mit Unsicherheit umgehen.

Wer einen maschinischen Check als das behandelt, was er ist, gewinnt etwas: Tempo, Konsistenz, Aufmerksamkeit für Auffälligkeiten. Wer ihn als Urteil tarnt, verliert etwas Größeres: die Klarheit darüber, wer in der Wissenschaft eigentlich wofür verantwortlich ist. Genau diese Klarheit entscheidet am Ende darüber, ob technisierte Begutachtung Vertrauen stärkt oder nur effizienter simuliert.

Das ist die eigentliche Grenzlinie. Nicht Mensch gegen Maschine. Sondern Vorprüfung gegen Urteil. Solange diese Trennung sichtbar bleibt, kann KI das Peer Review besser machen. Wenn sie unsichtbar wird, beginnt die Autorität zu kippen.

Autorenprofil

Benjamin Metzig ist Gründer, Autor und redaktionell Verantwortlicher von Wissenschaftswelle.de. Wissenschaftswelle ist ein persönlich geführtes redaktionelles Wissensprojekt, das komplexe Themen aus unterschiedlichen Fachbereichen sorgfältig recherchiert, strukturiert und verständlich aufbereitet. Moderne Recherche-, Analyse- und KI-Werkzeuge dienen dabei als Unterstützung, während Auswahl, Einordnung, Ton, Quellenbewertung und Veröffentlichung redaktionell bei Benjamin Metzig verantwortet bleiben. Mehr zum Profil: Autorenprofil von Benjamin Metzig.

Mehr von Wissenschaftswelle: Instagram und Facebook