---
Aktuelle Nachrichten aus der Wissenschaft
findest du in den
Science News
---

Ein quadratisches Thumbnail im Stil einer frechen, überzeichneten Adult-Animation zeigt das Thema Einkommen, Status und Wohlbefinden. Oben steht in großer gelber 3D-Schrift mit schwarzer Kontur „Einkommen & Glück“, darunter auf einem roten gezackten Banner in weißer Schrift „Der Rang zählt mehr als das Geld!“. Links sitzt ein jubelnder Mann mit Krone und Geldscheinen auf einem Stapel goldener Münzen, während unten links zwei bedrückt wirkende Figuren nach oben schauen. In der Mitte feiert eine lachende Gruppe, rechts steigt ein roter Pfeil vor einem Diagramm nach oben, daneben sitzt ein traurig wirkender Mann mit gebrochener Herz-Symbolik und Regenwolke über ihm. Am unteren Rand verläuft ein schwarzer Balken mit der weißen Aufschrift „Wissenschaftswelle.de“.

Knalliges, quadratisches Thumbnail im Comicstil zu Antibiotikaresistenzen. Oben steht in großer gelber Schrift „Gefährliche Super-Bakterien?“, darunter auf rotem Banner „Schwache Abwehr, schneller Gentransfer!“. Links ein verängstigtes grünes Bakterium, umringt von lila Viren und Spritzen, rechts ein grinsendes gelbes Bakterium mit Sonnenbrille, DNA-Strang und Kapsel mit der Aufschrift „RESISTENZ“. Unten sind ein DNA-Molekül, eine Petrischale, eine Spritze mit „ANTIBIOTIKA“ und ein Totenkopf zu sehen.

Die Internationale Raumstation im Orbit der Erde, daneben ein Astronaut in Schwerelosigkeit. Im Vordergrund ein leuchtendes Bakterium und ein großer, bedrohlich wirkender Bakteriophage, der auf DNA-Strukturen trifft. Text im Bild: ‚Mutation im All: Turbo-Evolution auf der ISS! Neue Mutationen, die auf der Erde keiner erwartet!‘ sowie der Hinweis ‚Wissenschaftswelle.de‘.

1/100

zu den Science-News

Prüfungsdesign: Warum Tests oft Fleiß messen, aber Verständnis übersehen

Benjamin Metzig
vor 3 Stunden
6 Min. Lesezeit

Hyperrealistisches Cover zu Prüfungsdesign: Auf einem mechanischen Prüfungstisch füllt eine Hand einen Antwortbogen aus, neben Papierstapeln und Stoppuhr; daneben leuchtet ein transparentes Gehirn als Symbol für Verständnis.

Eine Prüfung wirkt oft wie der sauberste Moment im Bildungssystem: klare Fragen, klare Antworten, klare Punkte. Gerade deshalb genießt sie einen Ruf von Objektivität. Aber dieser Ruf ist nur teilweise verdient. Viele Tests messen nicht einfach, was jemand verstanden hat. Sie messen ein Mischsignal aus Fachwissen, Formatkenntnis, Lesegeschwindigkeit, Zeitmanagement, Stressstabilität, Ausdauer und der Fähigkeit, sich auf genau dieses Prüfungsritual einzustellen.

Das ist keine pädagogische Romantik gegen Leistung, sondern ein nüchternes Messproblem. Der National Research Council beschreibt Assessment als einen Prozess des Schlussfolgerns aus Evidenz: Man sieht Verständnis nie direkt, sondern nur Antworten, Produkte oder Handlungen, aus denen man auf Verständnis zurückschließt. Deshalb müssen laut Knowing What Students Know immer drei Dinge zusammenpassen: ein Modell davon, wie Lernen und Kompetenz in einem Bereich aussehen, die Aufgaben, die dafür relevante Evidenz erzeugen, und die Art, wie diese Evidenz interpretiert wird. Sobald diese drei Ebenen nicht sauber aufeinander abgestimmt sind, wird aus der scheinbar präzisen Note ein unscharfer Schluss.

Warum Prüfungen so oft am Verständnis vorbeischrammen

Verstehen ist langsamer, widersprüchlicher und kontextabhängiger, als Prüfungen es gern hätten. Wer etwas wirklich verstanden hat, kann Begriffe einordnen, Annahmen prüfen, Beispiele übertragen, Fehler erkennen und unter neuen Bedingungen sinnvoll reagieren. Genau das ist aber schwer zu standardisieren, teuer auszuwerten und mühsam vergleichbar zu machen. Also greifen Institutionen gern zu Formaten, die schnell administrierbar und leicht bepunktbar sind.

Die OECD formuliert das in ihrem Report Innovating Assessments to Measure and Support Complex Skills bemerkenswert klar: Gute Bildungssysteme sollten messen, was wichtig ist, nicht bloß das, was leicht messbar ist. Und noch wichtiger: Kein einzelnes Assessment kann alle Formen von Wissen und Können erfassen, die wir bei Lernenden eigentlich wertschätzen. Wer trotzdem eine einzige Klausur, einen einzigen Test oder eine einzige standardisierte Punktzahl zum Hauptbeweis von Kompetenz macht, verwechselt administrative Praktikabilität mit intellektueller Genauigkeit.

Wenn Nebeneigenschaften heimlich mitbenotet werden

Definition: Konstruktirrelevante Varianz

In der Testtheorie bezeichnet das Unterschiede in Ergebnissen, die nicht aus dem eigentlichen Lernziel stammen, sondern aus Störfaktoren wie Zeitdruck, unnötiger Sprachlast, technischen Hürden oder Teststrategie.

Der stärkste blinde Fleck klassischer Prüfungen ist, dass sie oft Dinge mitmessen, die sie gar nicht messen wollen. ETS beschreibt in Validity Issues in Test Speededness genau dieses Problem: Wenn Schnelligkeit nicht Teil des eigentlichen Konstrukts ist, Zeitlimits aber trotzdem die Ergebnisse spürbar prägen, wird die Messung verzerrt. Dann entscheidet nicht nur, ob jemand ein Problem lösen kann, sondern auch, ob diese Person es unter künstlicher Taktung schnell genug schafft.

Das klingt abstrakt, ist aber alltäglich. Eine Matheklausur unter hohem Zeitdruck misst immer auch, wie effizient jemand unter Druck Aufgaben scannt, Prioritäten setzt und Rechenschritte routiniert automatisiert hat. Eine Geschichtsprüfung mit überkomplex formulierter Fragestellung misst nicht nur historisches Verständnis, sondern zugleich Lesekompetenz unter Stress. Ein digitales Testformat kann zusätzlich Vertrautheit mit Interface-Logiken oder Eingaberoutinen belohnen. In einem NCES-Band zu großen Leistungserhebungen wird genau das als konstruktirrelevante Schwierigkeit beschrieben, etwa wenn unnötige Leselast in eine Fachwissensprüfung hineinrutscht und damit Ergebnisse künstlich nach unten zieht.

Mit anderen Worten: Manche schlechte Prüfung ist nicht deshalb unfair, weil sie schwer ist, sondern weil sie heimlich das Falsche schwer macht.

Warum Fleiß oft sichtbarer ist als Verständnis

Der Titel dieses Artikels ist bewusst provokant, aber nicht wörtlich moralisch gemeint. „Fleiß“ steht hier nicht nur für Anstrengung, sondern für alles, was sich in Prüfungssystemen in verwertbare Signale übersetzen lässt: viele Altfragen trainieren, typische Distraktoren erkennen, Zeitraster einüben, Antwortmuster automatisieren, über Stunden diszipliniert durchhalten, Stress wegdrücken und das Format selbst beherrschen.

All das kann sinnvoll sein. Nur ist es eben nicht identisch mit Verständnis.

Jemand kann ein Thema durchdrungen haben und trotzdem in einer stark getakteten Prüfung schlechter abschneiden, weil Denken, Lesen und Strukturieren Zeit brauchen. Eine andere Person kann mit erstaunlicher Sicherheit bestehen, weil sie die Architektur der Prüfung verstanden hat: Wo tauchen Fangfragen auf? Welche Formulierungen deuten auf den gewünschten Erwartungshorizont? Welche Antwort klingt nach Lehrbuch? In solchen Momenten wird nicht primär Wissen sichtbar, sondern Prüfungssozialisation.

Das erklärt auch, warum Prüfungen sozial so heikel sind. Wer Zugang zu Nachhilfe, Altmaterialien, ruhigen Lernumgebungen und informellen Prüfungsregeln hat, lernt nicht nur Inhalte, sondern auch das Spielfeld. Die OECD fordert deshalb ausdrücklich Aufgaben, die instructionally sensitive sind: Sie sollen Unterschiede in Lernen und Unterricht sichtbar machen, nicht vor allem Unterschiede in außerschulischen Vorteilen oder bloßen Testtaking-Skills.

Der eigentliche Denkfehler: Wir wollen ein einziges Signal für viele Fähigkeiten

Viele Prüfungskulturen hängen an der Fantasie, eine gute Aufgabe könne alles zugleich leisten: Wissen prüfen, Verständnis prüfen, fair sein, schnell korrigierbar sein, vergleichbar sein, objektiv sein und am besten noch Motivation erzeugen. Genau das ist der Denkfehler.

Verständnis zeigt sich anders als Reproduktion. Transfer zeigt sich anders als Wiedererkennen. Argumentationsfähigkeit zeigt sich anders als Mustererkennung. Kommunikationsfähigkeit zeigt sich anders als das Ankreuzen der plausibelsten Antwort. Deshalb besteht die vernünftige Lösung nicht darin, den einen perfekten Test zu erfinden, sondern in einem System verschiedener Prüfungsformen.

Der National Research Council argumentiert ähnlich: Wissen entwickelt sich oft kontextgebunden, und Transfer hängt stark davon ab, ob Lernende wirklich verstanden haben, wann und wie sie Gelerntes in neue Situationen überführen können. Eine Prüfung, die nur trainierte Routinen abruft, kann diese Transferfähigkeit leicht übersehen und trotzdem eine beeindruckend präzise Note produzieren.

Heißt das, klassische Tests sind wertlos?

Nein. Die billige Kritik an Prüfungen ist fast genauso unpräzise wie viele Prüfungen selbst. Standardisierte Tests haben reale Stärken. Sie sind effizient, vergleichbar, skalierbar und oft reliabler als lose Einzelbeobachtungen. Sie können große Stoffbereiche abdecken und verhindern bis zu einem gewissen Grad Willkür.

Außerdem ist nicht jedes Multiple-Choice-Format oberflächlich. In der Fachliteratur, etwa in dieser Übersicht aus der medizinischen Ausbildung, wird immer wieder darauf hingewiesen, dass gut konstruierte Auswahlaufgaben auch Anwendung, Differenzierung und diagnostisches Denken prüfen können. Das Problem ist also nicht bloß das Format, sondern die falsche Überdehnung des Formats. Eine klug gebaute Multiple-Choice-Frage kann mehr sein als ein Vokabelabgleich. Aber sie bleibt ein enger Ausschnitt aus dem, was Verständnis im vollen Sinn ausmacht.

Wer also behauptet, Prüfungen seien nutzlos, irrt. Wer behauptet, sie seien ein transparenter Spiegel von Verständnis, irrt ebenfalls.

Das paradoxe Gegenargument: Tests können Lernen sogar verbessern

Hier wird es interessant. Forschung zum sogenannten Testing Effect zeigt seit Jahren, dass Abrufübungen das Lernen stärken können. Die Meta-Analyse von Christopher Rowland zeigt in PubMed, dass Testen gegenüber bloßem Wiederlesen langfristige Behaltensvorteile erzeugt. Prüfungen sind also nicht nur Messinstrumente, sondern potenziell auch Lernwerkzeuge.

Aber auch hier liegt die Pointe im Design. Abruf stärkt vor allem dann, wenn er wiederholt, feedbackgestützt und niedrigschwellig eingesetzt wird. Er hilft, Wissen aus dem Kopf zu holen, Lücken sichtbar zu machen und langfristig zu stabilisieren. Das ist etwas ganz anderes als eine einmalige Hochrisiko-Klausur, die am Ende eines Semesters überproportional viel entscheidet. Weitere Forschung zeigt zudem, dass Transfer nicht automatisch aus jeder Form des Testens folgt. Wer nur definitorische Kurzantworten abruft, trainiert nicht automatisch das Denken in neuen Situationen.

Anders gesagt: Kleine, klug gesetzte Tests können Verständnis aufbauen. Große, schlecht designte Tests können Verständnis verdecken.

Was bessere Prüfungen anders machen würden

Wenn wir wirklich prüfen wollen, ob Menschen etwas verstanden haben, müssten wir das Prüfungsdesign an den Lernzielen ausrichten statt an der Korrekturlogistik.

Erstens müsste klar benannt werden, was überhaupt gemessen werden soll. Geht es um Faktenwissen, Anwendung, Transfer, Argumentation, Kommunikation oder Problemlösen? Wer diese Dinge in einen Topf wirft, bekommt am Ende nur eine Zahl mit falscher Autorität.

Zweitens sollten Zeitlimits nur dort scharf sein, wo Schnelligkeit wirklich Teil der Kompetenz ist. Wenn eine Ärztin in einer Notfallsituation schnell priorisieren muss, ist Tempo relevant. Wenn jemand ein komplexes physikalisches Konzept verstehen oder einen historischen Zusammenhang argumentativ entfalten soll, ist künstlicher Zeitdruck oft eher Störung als Erkenntnisinstrument.

Drittens braucht es Aufgaben, die Denken sichtbar machen. Das können kurze Begründungen, mündliche Erklärungen, Fallanalysen, offene Transferaufgaben, kommentierte Lösungswege oder kleine Performanzformate sein. Nicht alles davon ist für jede Situation geeignet. Aber genau deshalb braucht es mehrere Werkzeuge statt eines einzigen.

Viertens sollte Bewertung stärker verteilt werden. Wer Lernen nur in einem alles entscheidenden Prüfungsmoment misst, belohnt oft Nervenstärke und Last-Minute-Optimierung. Wer stattdessen mit mehreren kleineren Evidenzpunkten arbeitet, bekommt ein belastbareres Bild. Das passt auch zu dem, was der OECD-Bericht als koordiniertes Assessment-System beschreibt.

Warum diese Debatte mehr ist als ein Schulthema

Prüfungsdesign ist kein Nischenthema für Didaktikseminare. Es berührt Aufstiegschancen, Selbstbilder, Berufswege und die Frage, was eine Gesellschaft überhaupt unter Leistung versteht. Eine Prüfungskultur, die vor allem Anpassung an das Format belohnt, produziert Menschen, die gut in Prüfungen sind. Eine Prüfungskultur, die Transfer, Begründung und Fehlersensibilität ernst nimmt, produziert eher Menschen, die mit Unsicherheit arbeiten können.

Deshalb ist die Debatte auch politisch. Sie hängt mit Bildungsungleichheit zusammen, mit unserem Hang zur Zahl als Herrschaftsform und mit der Frage, warum Systeme so gern das Verfügbare mit dem Wesentlichen verwechseln. Wer dazu weiterdenken will, findet auf Wissenschaftswelle bereits Texte über die Aufmerksamkeitsökonomie, über maximalen Lernerfolg ohne Bulimielernen und über die Frage, warum wir Schule neu erfinden müssen.

Fazit

Die meisten Prüfungen scheitern nicht daran, dass sie Leistung verlangen. Sie scheitern daran, dass sie oft nicht sauber trennen, welche Leistung sie eigentlich sehen wollen. Sobald Formatbeherrschung, Zeitdruck, Sprachlast und Drill unbemerkt mitbewertet werden, wird aus der Note kein Fenster ins Verständnis, sondern ein Kompromiss zwischen Lernen und Anpassung.

Die bessere Frage lautet deshalb nicht: Brauchen wir Prüfungen oder nicht? Die bessere Frage lautet: Welche Evidenz wäre stark genug, um Verständnis tatsächlich zu erkennen, und welche Störsignale lassen wir bisher stillschweigend mitbenoten?

Wenn dir solche Analysen gefallen, findest du Wissenschaftswelle auch auf Instagram und Facebook.