Die Replikationskrise in der Psychologie (ab 2010)

Ein Beben im Fundament der Verhaltenswissenschaften

Wissenschaft ist ein Versprechen. Es ist das Versprechen, dass wir durch systematisches Beobachten und Experimentieren zu Erkenntnissen gelangen, die über den Einzelfall hinaus Bestand haben. In der Psychologie bedeutet das: Wenn eine Forscherin in einem Labor in New York herausfindet, dass Menschen unter Zeitdruck egoistischer handeln, dann sollte ein Forscher in Berlin zum selben Ergebnis kommen, wenn er den Versuch exakt so wiederholt. Diese Wiederholbarkeit, in der Fachsprache Replikation genannt, ist das ultimative Gütesiegel der Wissenschaft. Doch um das Jahr 2010 herum begann dieses Siegel massiv zu bröckeln. Was als methodische Diskussion unter Experten begann, weitete sich schnell zu einer existenziellen Krise aus, die ganze Lehrbücher infrage stellte und das Vertrauen in die psychologische Forschung weltweit erschütterte.

Die Replikationskrise ist jedoch weit mehr als eine bloße Pannenserie. Sie markiert den Moment, in dem die Psychologie gezwungen war, erwachsen zu werden und ihre eigenen Arbeitsweisen radikal zu hinterfragen. Es geht dabei nicht nur um fehlerhafte Statistiken, sondern um die Kultur der Wissenschaft selbst, um den Druck des Publizierens und um die unbequeme Wahrheit, dass viele unserer „aufregendsten“ Entdeckungen vielleicht gar keine waren, sondern statistische Fata Morganas.

Das „Annus Horribilis“ 2011: Der Auslöser des Sturms

Zwar gab es schon früher warnende Stimmen, doch das Jahr 2011 gilt heute als der Wendepunkt, an dem die Krise unübersehbar wurde. Drei Ereignisse fielen zusammen und bildeten einen „perfekten Sturm“. Zuerst war da die Veröffentlichung einer Studie des renommierten Sozialpsychologen Daryl Bem in einem der angesehensten Fachjournale der Welt. Bem behauptete, wissenschaftliche Beweise für Präkognition – also die Fähigkeit, in die Zukunft zu sehen – gefunden zu haben. Die statistischen Methoden waren absolut standardkonform, doch das Ergebnis war aus Sicht der Naturwissenschaften unmöglich. Das Problem war klar: Wenn man mit korrekten Methoden etwas beweisen kann, das offensichtlich falsch ist, dann stimmt etwas mit den Methoden nicht.

Fast zeitgleich flog der massive Betrugsfall um den niederländischen Star-Psychologen Diederik Stapel auf. Stapel hatte jahrelang Daten schlichtweg erfunden, um spektakuläre Studien über menschliches Verhalten zu veröffentlichen. Dieser Fall von krimineller Energie war zwar ein Extrembeispiel, doch er legte offen, wie leicht es im damaligen System war, über Jahre hinweg unentdeckt Phantasieergebnisse als Fakten zu verkaufen.

Den entscheidenden methodischen Todesstoß versetzte jedoch ein Artikel mit dem Titel „False-Positive Psychology“. Die Autoren demonstrierten darin, dass man durch kleine, scheinbar harmlose Entscheidungen bei der Datenauswertung – etwa das Weglassen von ein paar Probanden oder das nachträgliche Ändern der Hypothese – praktisch alles beweisen kann. Sie „bewiesen“ statistisch signifikant, dass das Hören des Beatles-Songs „When I'm Sixty-Four“ Menschen biologisch jünger macht. Damit war klar: Die bisherige Praxis der Psychologie erlaubte es, Rauschen als Signal zu verkaufen.

P-Hacking und die dunkle Kunst der Datenmassage

Um zu verstehen, warum so viele Studien nicht replizierbar sind, muss man sich die statistische Messlatte ansehen, die in der Psychologie fast überall gilt: den p-Wert. Traditionell gilt ein Ergebnis als „signifikant“, wenn die Wahrscheinlichkeit, dass die Daten rein durch Zufall so entstanden sind, unter fünf Prozent liegt ($p < 0,05$). Das klingt nach einer soliden Hürde, ist aber in Wahrheit extrem anfällig für Manipulationen, die oft gar nicht böswillig erfolgen, sondern aus dem unbewussten Wunsch der Forscher resultieren, ein „schönes“ Ergebnis zu finden.

Dieses Phänomen wird als „p-hacking“ bezeichnet. Man rechnet so lange mit den Daten herum, bis die magische Grenze von 0,05 unterschritten wird. Dazu gesellt sich das „HARKing“ (Hypothesizing After Results are Known): Forscher formulieren ihre Hypothese erst um, nachdem sie die Ergebnisse gesehen haben, und tun so, als hätten sie den Effekt von Anfang an genau so vorhergesagt. In Kombination mit einem Publikationssystem, das fast ausschließlich „positive“ Ergebnisse veröffentlicht – während Studien, die keinen Effekt finden, in den Schubladen der Forscher verschwinden (das sogenannte „File Drawer Problem“) – entstand ein verzerrtes Bild der psychologischen Realität. Es wurden nur die Erfolge gefeiert, die Misserfolge blieben unsichtbar.

Das Reproducibility Project: Wenn die Trümpfe nicht mehr stechen

Die theoretische Kritik gipfelte schließlich in einem der ehrgeizigsten Projekte der jüngeren Wissenschaftsgeschichte. Unter der Leitung von Brian Nosek starteten hunderte Forscher weltweit das „Reproducibility Project: Psychology“. Ihr Ziel war es, 100 psychologische Studien aus drei renommierten Fachzeitschriften eins zu eins zu wiederholen. Im Jahr 2015 wurden die Ergebnisse veröffentlicht und wirkten wie eine Schockwelle: Nur 36 Prozent der Replikationsversuche lieferten ein signifikantes Ergebnis, das mit der Originalstudie übereinstimmte.

Besonders hart traf es die Sozialpsychologie. Konzepte, die jahrelang in Lehrbüchern standen und in populären Sachbüchern als gesichertes Wissen verkauft wurden, erwiesen sich als extrem wackelig. Ein prominentes Opfer war das „Ego Depletion“-Modell, die Idee, dass Willenskraft wie ein Akku funktioniert, der leerlaufen kann. In großangelegten Wiederholungsstudien ließ sich dieser Effekt kaum stabil nachweisen. Auch das „Power Posing“ – die Vorstellung, dass eine selbstbewusste Körperhaltung die Hormone verändert und den Erfolg steigert – geriet massiv unter Beschuss, nachdem die ursprünglichen Befunde in unabhängigen Laboren nicht bestätigt werden konnten.

Gesellschaftliche Wirkung und das Ende der Pop-Psychologie

Die Replikationskrise blieb nicht hinter verschlossenen Labortüren. Sie sickerte in die Öffentlichkeit durch und veränderte die Art, wie über Psychologie berichtet wird. Viele „Life Hacks“ und psychologische Weisheiten, die in TED-Talks Millionen von Menschen inspiriert hatten, verloren plötzlich ihre wissenschaftliche Grundlage. Dies führte zu einer gesunden Skepsis gegenüber allzu einfachen Erklärungen für menschliches Verhalten.

Für die Betroffenen – die Forscher selbst – war die Zeit schmerzhaft. Karrieren standen auf dem Spiel, ganze Forschungsfelder mussten sich rechtfertigen. Doch die Krise hatte einen heilsamen Effekt: Sie erzeugte einen enormen Druck zur Reform. Die Psychologie wurde zum Vorreiter der sogenannten „Open Science“-Bewegung. Wenn die alten Methoden nicht verlässlich waren, mussten neue her. Es war die Geburtsstunde einer neuen Transparenz.

Die Antwort der Wissenschaft: Ein neuer Standard für Transparenz

Die wichtigste Innovation aus der Krise heraus ist die Präregistrierung. Forscher müssen heute oft schon vor Beginn ihrer Datenerhebung öffentlich dokumentieren, was sie untersuchen wollen und wie sie die Daten analysieren werden. Das verhindert das nachträgliche p-hacking und HARKing, da man sich nicht mehr heimlich die passenden Ergebnisse aussuchen kann. Zudem etablieren sich „Registered Reports“: Hier entscheiden Fachzeitschriften über die Veröffentlichung einer Studie allein basierend auf der Qualität der Methode und der Fragestellung – noch bevor die Ergebnisse überhaupt feststehen. Das nimmt den Druck, um jeden Preis ein signifikantes Ergebnis produzieren zu müssen.

Ein weiterer Pfeiler ist „Open Data“ und „Open Materials“. Immer mehr Forscher stellen ihre Originaldaten und ihre Analyse-Skripte online zur Verfügung, sodass jeder andere Wissenschaftler die Berechnungen überprüfen kann. Das Vertrauen wird also nicht mehr blind geschenkt, sondern muss durch vollständige Transparenz verdient werden. Auch die statistischen Anforderungen wurden verschärft. Viele fordern heute, die Grenze für Signifikanz deutlich abzusenken oder ganz von starren p-Werten abzurücken und stattdessen die Effektstärke und die Unsicherheit von Schätzungen stärker zu betonen.

Die Psychologie nach dem Sturm

Ist die Psychologie durch die Replikationskrise diskreditiert? Ganz im Gegenteil. Die Krise war kein Zeichen für das Scheitern der Psychologie als Wissenschaft, sondern für ihre Selbstheilungskräfte. Die Bereitschaft, eigene Fehler so schonungslos offenzulegen und die gesamte Methodik umzukrempeln, ist ein Zeugnis für die Stärke des wissenschaftlichen Systems.

Heute ist die psychologische Forschung oft solider, transparenter und vorsichtiger in ihren Aussagen als noch vor zwanzig Jahren. Wir haben gelernt, dass der menschliche Geist komplex ist und sich nicht in einfachen 10-Minuten-Experimenten mit 30 Psychologiestudenten vollständig entschlüsseln lässt. Die Replikationskrise hat uns gelehrt, dass eine einzelne Studie noch kein Fakt ist, sondern nur ein Puzzlestück, das erst durch viele unabhängige Wiederholungen an Wert gewinnt. Am Ende steht eine Wissenschaft, die zwar weniger spektakuläre Schlagzeilen produziert, dafür aber ein Fundament baut, das hoffentlich für die nächsten Generationen trägt.

< zur Übersicht

Wissenschaftswelle.de

Gratis Newsletter erhalten