Scheinkorrelationen entlarven: Warum Daten uns so leicht reinlegen

Benjamin Metzig
1. März
6 Min. Lesezeit

Aktualisiert: 15. Mai

Quadratisches Wissenschaftswelle-Cover mit zwei leuchtenden Diagrammlinien, die sich dramatisch kreuzen, davor eine analytische Glasscheibe mit Markierungen und Warnsymbolen, darüber die gelbe Headline „SCHEINKORRELATIONEN“ und im roten Banner „Wenn Daten Geschichten vortäuschen“.

Zwei Kurven steigen gleichzeitig. Ein Diagramm zeigt eine auffällige Linie. Eine Schlagzeile behauptet, wer A tut, löse B aus. Und obwohl wir gelernt haben, vorsichtig zu sein, springt unser Denken fast automatisch zur Erklärung. Wir sehen ein Muster und möchten daraus sofort eine Geschichte machen.

Genau dort beginnt das Problem. Daten können echte Zusammenhänge sichtbar machen. Sie können aber auch Verknüpfungen produzieren, die nur deshalb überzeugend wirken, weil unser Gehirn Gleichlauf gern mit Ursache verwechselt. Scheinkorrelationen sind deshalb nicht bloß ein technischer Fehler aus dem Statistikseminar. Sie sind eine alltägliche Erkenntnisfalle: in Studien, in Mediengrafiken, in Gesundheitstipps, in politischen Debatten und in den Zahlenwelten von Unternehmen.

Der Punkt ist nicht, dass Korrelation wertlos wäre. Im Gegenteil: Viele wissenschaftliche Entdeckungen beginnen mit auffälligen Korrelationen. Problematisch wird es erst, wenn wir aus einer beobachteten Beziehung zu schnell den falschen Schluss ziehen. Dann beantworten die Daten nicht mehr die Frage, die wir gestellt haben, sondern eine bequemere.

Warum Korrelation so verführerisch ist

Korrelation ist zunächst nur ein Muster gemeinsamer Veränderung. Wenn zwei Größen oft zusammen steigen, fallen oder sich gegensinnig bewegen, steckt darin ein Signal. Dieses Signal kann wichtig sein. Es kann aber mehrere sehr unterschiedliche Ursachen haben.

Manchmal beeinflusst tatsächlich A die Größe B. Manchmal beeinflusst B die Größe A. Manchmal steuert eine dritte Größe beide zugleich. Manchmal ist der Zusammenhang ein Artefakt der Auswahl, der Aggregation oder des Messverfahrens. Und manchmal ist er schlicht das Resultat vieler Versuche, bis irgendwo ein auffälliger Treffer entsteht.

Unser Gehirn liebt dabei die ökonomische Version der Welt: zwei Linien, eine Story. Genau deshalb sind Scheinkorrelationen so erfolgreich. Sie liefern Ordnung, bevor wir die Struktur des Problems verstanden haben.

Wer sich mit Unsicherheit systematischer beschäftigen will, landet schnell bei Fragen, die auch in unserem Beitrag Bayes im Alltag: Warum neue Informationen unsere Überzeugungen ändern sollten – und warum wir uns trotzdem so oft täuschen auftauchen: Wie viel sollte neue Evidenz an unserem Urteil ändern, und was genau zählt überhaupt als starke Evidenz?

Vier Wege in die Scheinkorrelation

Nicht jede irreführende Korrelation entsteht auf dieselbe Art. Gerade das macht das Thema so wichtig. Wer nur den Standardsatz "Korrelation ist nicht Kausalität" wiederholt, erklärt noch nicht, wo der Fehlschluss konkret sitzt.

Drittvariable: Eine verborgene Ursache beeinflusst beide Größen · Warum es täuscht: Der Zusammenhang sieht direkt aus, ist es aber nicht
Aggregation: Zusammengerechnete Gruppen verdecken die eigentliche Struktur · Warum es täuscht: Das Gesamtbild kippt die lokalen Effekte
Flexible Auswertung: Viele Tests oder Datenschnitte produzieren Zufallstreffer · Warum es täuscht: Signifikanz wirkt dann stärker, als sie ist
Zeittrend: Zwei Reihen steigen gemeinsam über die Zeit · Warum es täuscht: Gemeinsamer Trend wird mit Beziehung verwechselt

Erstens: Die gemeinsame Ursache im Hintergrund

Das klassische Beispiel ist banal, aber lehrreich: Wenn Eisverkauf und Badeunfälle gleichzeitig zunehmen, liegt die Ursache meist nicht darin, dass Speiseeis Menschen ins Wasser treibt. Beide Größen reagieren auf Temperatur, Ferienzeit und saisonales Verhalten. Der sichtbare Gleichlauf ist real. Die naheliegende Geschichte ist falsch.

Solche verdeckten Drittvariablen nennt man Konfundierung. Sie sind besonders tückisch, weil der beobachtete Zusammenhang oft statistisch stabil ist. Er verschwindet nicht einfach, nur weil wir ihm misstrauen. Er verschwindet erst, wenn wir die Struktur des Problems besser modellieren.

Das ist mehr als ein Lehrbuchproblem. Viele gesellschaftliche Debatten über Bildung, Gesundheit, Kriminalität oder Mediennutzung scheitern daran, dass Lebenslagen, Alter, Einkommen, Selektionsmechanismen oder institutionelle Unterschiede nicht sauber mitgedacht werden. Die Zahlen sind dann nicht erfunden, aber die Deutung schießt über ihre Reichweite hinaus.

Merksatz: Eine starke Korrelation ist noch keine starke Erklärung

Je plausibler eine Geschichte klingt, desto härter sollte die Frage nach möglichen Drittvariablen ausfallen.

Zweitens: Wenn die Gesamtsumme lügt

Noch irritierender wird es beim Simpson-Paradox. Dabei kann ein Zusammenhang in der Gesamtheit in eine Richtung zeigen, während er in den relevanten Teilgruppen schwächer ist, verschwindet oder sich sogar umkehrt. Dann ist nicht die Mathematik widersprüchlich, sondern unsere Annahme, auf welcher Ebene die Daten verglichen werden müssen.

Der philosophische und statistische Reiz dieses Problems liegt genau hier: Dieselben Daten erlauben verschiedene Lesarten, wenn man die zugrunde liegende Kausalstruktur nicht kennt. Die Stanford Encyclopedia of Philosophy zum Simpson-Paradox und Judea Pearls Übersicht Simpson's Paradox machen diesen Punkt besonders klar. Aggregieren oder aufteilen ist keine rein technische Frage. Es ist eine Frage danach, welche Unterschiede kausal relevant sind.

In der Praxis taucht dieses Problem überall auf, wo Gruppen ungleich zusammengesetzt sind: Kliniken behandeln unterschiedlich schwere Fälle, Universitäten erhalten ungleich verteilte Bewerbungen, Plattformen bedienen verschiedene Nutzersegmente, Schulen arbeiten mit verschiedenen sozialen Ausgangslagen. Wer dann nur die Gesamtrate vergleicht, bekommt womöglich ein sauberes, aber falsches Bild.

Drittens: Wenn aus vielen Versuchen ein scheinbar sicherer Treffer wird

Scheinkorrelationen entstehen nicht nur in den Daten selbst, sondern auch im Umgang mit ihnen. Genau hier setzt die Reproduzierbarkeitsdebatte an. Das bekannte Papier False-Positive Psychology von Joseph Simmons, Leif Nelson und Uri Simonsohn zeigte, wie leicht flexible Entscheidungen bei Datenerhebung, Variablenauswahl, Ausschlüssen oder Stoppregeln aus falschen Hypothesen scheinbar signifikante Befunde machen können.

Das Problem ist nicht, dass Forschende betrügen müssen. Es reicht oft schon, viele plausible Auswertungswege offen zu lassen und im Nachhinein den interessantesten zu berichten. Wer zehn, zwanzig oder fünfzig Muster testet, erhöht die Chance, dass eines davon zufällig glänzt. Wird dann nur dieser Treffer sichtbar, wirkt er wie ein sauberer Befund.

Die American Statistical Association hat genau deshalb betont, dass ein p-Wert kein Ersatz für gutes Studiendesign, vollständige Berichterstattung und inhaltliche Einordnung ist. Ein kleiner p-Wert sagt nicht, wie groß ein Effekt ist, wie wichtig er ist oder wie wahrscheinlich eine Hypothese wahr ist. Er sagt schon gar nicht, dass konkurrierende Erklärungen erledigt wären.

Für Leserinnen und Leser ist das unbequem, aber notwendig: Signifikanz ist kein Qualitätssiegel. Sie ist nur ein Baustein in einem viel größeren Erkenntnisprozess.

Viertens: Zeitreihen produzieren ihre eigenen Illusionen

Besonders elegant und gefährlich sind Scheinkorrelationen in Zeitreihen. Schon 1926 beschrieb G. Udny Yule in seinem Aufsatz Why Do We Sometimes Get Nonsense-Correlations between Time-Series?, dass unabhängige Reihen durch gemeinsame Trends erstaunlich hohe Korrelationen zeigen können. Zwei Größen wachsen dann einfach beide mit der Zeit, ohne dass die eine die andere treibt.

Das Problem ist heute eher größer als kleiner geworden. Wir leben in einer Kultur permanenter Messung: Suchvolumen, Aktienkurven, Fallzahlen, Stimmungsdaten, Nutzungszeiten, Temperaturen, Absatzreihen. In solchen Daten stecken Trends, Saisonalitäten, Strukturbrüche und Autokorrelationen. Wer sie wie unabhängige Punktwolken behandelt, produziert sehr schnell bedeutungsvoll aussehende Scheineffekte.

Genau an dieser Stelle berührt das Thema auch unseren Beitrag Warum Daten keine Uhren sind: Was Modelle über Zeit zeigen und was sie systematisch verfehlen. Zeit ist in Daten nie bloß eine neutrale Achse. Sie formt die Daten selbst.

Schon die Messung ist nicht neutral

Bevor Korrelationen gerechnet werden, wurden Größen definiert, Instrumente gewählt, Kategorien festgelegt und Unsicherheiten in Kauf genommen. Das NIST zur Messunsicherheit erinnert an eine schlichte, oft verdrängte Wahrheit: Messwerte sind keine direkten Abdrücke der Wirklichkeit, sondern Ergebnisse eines Verfahrens mit Streuung, Kalibrierung und Modellannahmen.

Das bedeutet nicht, dass Messungen beliebig wären. Es bedeutet nur, dass jede Zahl eine Herstellungsbiografie besitzt. Wer diese Biografie vergisst, hält die spätere Korrelation leicht für objektiver, als sie ist. Besonders bei psychologischen, sozialen oder ökonomischen Größen ist das entscheidend. Was genau misst eine Skala? Welche Unterschiede werden zusammengefasst? Welche Fälle fehlen in der Stichprobe? Welche Definitionen wurden im Lauf der Zeit geändert?

Hier liegt auch die Nähe zu Datenjournalismus: Wie Zahlen Geschichten prüfbar machen und trotzdem Entscheidungen brauchen. Gute Datenpraxis beginnt nicht beim hübschen Diagramm, sondern viel früher: bei Definitionen, Dokumentation und der Bereitschaft, Unsicherheit sichtbar zu lassen.

Wie man sich gegen Scheinkorrelationen wehrt

Es gibt keinen magischen Schutz, aber es gibt robuste Gegenfragen. Sie helfen in der Forschung ebenso wie beim Lesen von Mediengrafiken oder Unternehmensdashboards.

Erstens: Gibt es eine plausible Drittvariable, die beide Größen zugleich beeinflusst?

Zweitens: Bleibt der Zusammenhang bestehen, wenn man sinnvolle Teilgruppen getrennt betrachtet?

Drittens: War diese Analyse vorher geplant oder wurde so lange gesucht, bis etwas Auffälliges auftauchte?

Viertens: Handelt es sich um Zeitreihen, in denen Trend, Saison oder Strukturbruch separat modelliert werden müssten?

Fünftens: Wie wurden die Größen überhaupt gemessen, definiert und bereinigt?

Sechstens: Gibt es externe Replikationen, alternative Datensätze oder ein Design, das kausale Schlüsse besser trägt?

Wer solche Fragen stellt, macht Daten nicht schwächer. Er nimmt sie ernster. Genau darum geht es auch in Wahrheit hinterlässt Spuren: Wie Protokolle, Forensik und offene Daten neue Gewissheiten prüfen: Verlässlichkeit entsteht selten aus einem einzelnen Signal, sondern aus sauberer Dokumentation, unabhängiger Prüfung und der Bereitschaft, attraktive Geschichten gegen die Struktur der Evidenz zu testen.

Warum das mehr als Statistik ist

Scheinkorrelationen sind nicht bloß akademische Peinlichkeiten. Sie können Therapien plausibel erscheinen lassen, die nicht wirken. Sie können politischen Programmen eine Evidenz aura verleihen, die sie nicht verdienen. Sie können Unternehmen zu falschen Entscheidungen verleiten, wenn Dashboards Verhalten mit Wirkung verwechseln. Und sie können öffentliche Debatten vergiften, weil scheinbar harte Zahlen oft viel weicher sind, als ihre Präsentation vermuten lässt.

Der eigentliche Lernschritt ist deshalb nicht, jeder Korrelation zu misstrauen. Der Lernschritt besteht darin, Korrelationen als Anfang von Analyse zu behandeln, nicht als Ende. Eine gute Korrelation ist eine Einladung zur präziseren Frage: Welche Struktur der Welt könnte dieses Muster erzeugen?

Wenn wir das ernst nehmen, verlieren Daten nichts von ihrer Kraft. Sie gewinnen nur an Disziplin. Und genau diese Disziplin ist es, die aus bloßen Zahlen langsam Erkenntnis macht.

Instagram | Facebook

-> Der Beitrag wurde am 15.05.2026 vollständig aktualisiert