Nach dem Studienprotokoll beginnt das echte Leben: Was Real-World-Daten in der Medizin wert sind

Benjamin Metzig
17. Mai
6 Min. Lesezeit

Transparenter menschlicher Oberkörper, der sich aus Patientenakte, ICD-Codes und medizinischen Datenspuren zusammensetzt, vor dunklem Klinikhintergrund.

Ein Medikament kann in einer randomisierten Studie sauber funktionieren und im Versorgungsalltag trotzdem anders aussehen. Nicht, weil die Studie wertlos wäre. Sondern weil nach der Zulassung plötzlich Menschen auftauchen, die im Protokoll nur am Rand vorkamen: sehr alte Patientinnen, multimorbide Patienten, Menschen mit lückenhafter Therapietreue, wechselnden Ärztinnen, unvollständiger Dokumentation und einem Alltag, der sich nicht an Studienlogistik hält.

Die Zulassungsstudie fragt: Wirkt das Mittel unter kontrollierten Bedingungen? Die Versorgung fragt ein Jahr später etwas Härteres: Bei wem wirkt es wirklich, wer bricht ab, wo tauchen seltene Probleme auf und welche Nebenwirkungen sieht man erst dann, wenn niemand mehr unter Studienglas lebt?

Genau dort beginnt das Feld der Real-World-Daten. Die FDA beschreibt sie als routinemäßig erhobene Daten zum Gesundheitszustand oder zur Versorgung. Dazu gehören elektronische Akten, Krankenkassen- und Abrechnungsdaten, Register und andere Quellen. Entscheidend ist dabei ein Punkt, der oft verlorengeht: Real-World-Daten sind nicht einfach „Alltagserfahrung“. Sie sind dokumentierte Spuren des Alltags, und diese Spuren haben ihre eigene Logik.

Wer den Unterschied nicht ernst nimmt, landet schnell in zwei gegensätzlichen Irrtümern. Der eine lautet: Endlich zeigt die Wirklichkeit, was wirklich stimmt, also können kontrollierte Studien einpacken. Der andere lautet: Alles außerhalb randomisierter Studien ist methodisch zweitrangig. Beides greift zu kurz.

Nicht Erfahrung, sondern Datenspuren

Wenn Ärztinnen von Erfahrung sprechen, meinen sie oft klinische Muster, Intuition, Vergleichsfälle und gelernte Aufmerksamkeit. Real-World-Daten sind etwas anderes. Sie entstehen, weil Versorgung dokumentiert, abgerechnet, registriert oder digital gespeichert wird. Darum sind sie groß, lang laufend und oft näher an der Routine als klassische Studien. Aber gerade deshalb tragen sie immer auch die Spuren des Systems, das sie erzeugt hat.

Die NICE-Leitlinie zu Real-World-Evidence formuliert das sehr nüchtern: Ein Datensatz ist nur dann brauchbar, wenn Provenienz, Vollständigkeit, Genauigkeit und Relevanz zur Forschungsfrage passen. Ein großer Datensatz ist also nicht automatisch ein guter Datensatz. Er kann Millionen Einträge enthalten und trotzdem an genau der Stelle blind sein, die für die medizinische Frage entscheidend wäre.

Das ist derselbe Denkfehler, der auch bei individuellen Messwerten oft passiert. Schon bei kontinuierlichen Glukosedaten zeigt sich, dass Messfülle noch keine Diagnose ergibt, wie der Beitrag Der Peak ist nicht die Diagnose sehr schön auseinanderlegt. Für Versorgungsdaten gilt dasselbe, nur in größerem Maßstab.

Drei Datenquellen, drei verschiedene Stärken

Unter dem Label Real-World-Daten landen sehr unterschiedliche Dinge. Wer sie in einen Topf wirft, versteht weder ihre Kraft noch ihre Grenzen.

Krankenkassen- und Abrechnungsdaten: große Populationen, Verläufe, Versorgungswege, seltene Ereignisse · Schwach bei: klinische Feinheiten, Gründe für Entscheidungen, unsichtbare Symptome
Register: klar definierte Patientengruppen, standardisierte Erfassung, Langzeitverläufe · Schwach bei: begrenzte Repräsentativität, uneinheitliche Teilnahme, variierende Qualität
Elektronische Akten: klinischer Detailgrad, Laborwerte, Diagnosen, Verlauf im Behandlungsalltag · Schwach bei: fehlende Standardisierung, Lücken, Textchaos, unterschiedliche Dokumentationskulturen

Gerade bei Krankenkassendaten ist die Herkunft entscheidend. Die aktuelle FDA-Leitlinie zu EHR- und Claims-Daten erinnert ausdrücklich daran, dass Claims-Daten primär für Bezahlung und nicht für Forschung entstehen. Was codiert wird, folgt also auch Abrechnungslogiken. Man sieht oft, dass eine Leistung abgerechnet oder ein Rezept eingelöst wurde, aber nicht automatisch, warum klinisch so entschieden wurde oder ob ein Medikament am Ende wirklich wie vorgesehen eingenommen wurde. Das kann für Versorgungsanalysen enorm nützlich sein, aber es ist nicht dasselbe wie eine klinisch kuratierte Beobachtung.

Register funktionieren anders. Die FDA-Leitlinie zu Registern und der AHRQ-Guide zu Patientenregistern behandeln Register als organisierte Systeme mit definierten Populationen, einheitlicher Datenerhebung und klaren Outcomes. Das macht sie oft wertvoller als rohe Verwaltungsdaten, aber nicht automatisch repräsentativ für die Gesamtbevölkerung.

Elektronische Akten wiederum sind klinisch reichhaltiger. In ihnen stecken Laborwerte, Diagnosen, Medikationswechsel und manchmal auch entscheidende Kontextinformationen. Gleichzeitig leiden sie an genau dem, was in der Routineversorgung unvermeidlich ist: Unterschiede zwischen Kliniken, Dokumentationsstilen, Software-Systemen und Vollständigkeit. Wer schon einmal gesehen hat, wie stark medizinische Wahrscheinlichkeiten vom Kontext abhängen, versteht, warum Beiträge wie Bayesianische Netzwerke in der Diagnostik hier mehr als nur ein Randthema sind.

Warum randomisierte Studien ihren Rang behalten

Randomisierte kontrollierte Studien sind nicht deshalb stark, weil sie künstlich wären. Sie sind stark, weil sie eine sehr spezielle Frage besonders gut beantworten: Wirkt eine Intervention unter definierten Bedingungen kausal besser oder schlechter als eine Alternative?

Die Randomisierung ist dabei kein bürokratisches Detail, sondern ein Schutzmechanismus. Sie soll verhindern, dass Behandlungsgruppen sich bereits vor der Therapie systematisch unterscheiden. Genau diese Verwechslungsgefahr ist in Beobachtungsdaten allgegenwärtig. Wer ein Medikament erhält, unterscheidet sich oft schon vorab von Menschen, die es nicht bekommen: durch Alter, Schweregrad, Begleiterkrankungen, Zugang zu Versorgung, Adhärenz oder ärztliche Auswahl.

Darum ist es irreführend, Real-World-Daten gegen randomisierte Studien auszuspielen, als handle es sich bloß um zwei Wege zum selben Ziel. Sie erzeugen unterschiedliche Evidenzqualitäten. Eine große Übersichtsarbeit in BMC Medicine verglich gepaarte Effektschätzungen aus Beobachtungsstudien und RCTs. Im Mittel lagen die Ergebnisse nicht immer völlig auseinander, aber auf Einzelfallniveau war die Streuung erheblich: In 40,5 Prozent der verglichenen Paare zeigten die Effektschätzungen sogar in entgegengesetzte Richtungen. Das ist keine methodische Fußnote. Es ist die Erinnerung daran, dass große Routinedaten nicht automatisch dieselbe Frage beantworten wie ein sauber randomisiertes Design.

Merksatz: Real-World-Daten sind nicht schwach, weil sie aus dem Alltag stammen. Sie werden schwach, wenn man aus ihnen mehr Kausalität herausliest, als ihr Design hergibt.

Wofür Real-World-Daten unersetzlich sind

Trotzdem wäre es ein Fehler, aus dieser Differenz ein Primat der Studie über die Versorgung abzuleiten. Medizin endet nicht am Abstract einer Zulassungsstudie. Sie beginnt dort oft erst unter realen Bedingungen.

Real-World-Daten werden stark, wenn es um Fragen geht, die RCTs nur begrenzt erfassen: seltene Nebenwirkungen, lange Verläufe, Wechselwirkungen in multimorbiden Populationen, tatsächliche Nutzungsmuster, Therapieabbrüche oder Unterschiede zwischen Versorgungskontexten. Genau deshalb investieren Regulierer inzwischen systematisch in solche Infrastrukturen. Das europäische Netzwerk DARWIN EU der EMA bündelt Daten aus Krankenhäusern, Registern und anderen Routinedatenquellen, um regulatorische Fragen zu Sicherheit, Nutzen und Versorgung von Arzneimitteln entlang ihres gesamten Lebenszyklus zu beantworten.

Auch die FDA dokumentiert inzwischen konkrete Fälle regulatorischer Nutzung: Medicare-Claims wurden etwa für retrospektive Sicherheits- und Nutzungsauswertungen verwendet, an anderer Stelle wurden Krankenakten als stützende Evidenz für Sicherheits- und Wirksamkeitsfragen herangezogen. Das Entscheidende daran ist nicht die bloße Existenz großer Datenmengen, sondern die präzise Frage, für die sie eingesetzt werden.

Besonders sichtbar wird das dort, wo klassische Studien strukturell an Grenzen stoßen. Bei seltenen Erkrankungen etwa sind kleine Fallzahlen, heterogene Verläufe und späte Diagnosen oft das Kernproblem. Dann werden gut geführte Register und verknüpfte Routinedaten zu einer Art zweiter Infrastruktur des Wissens. Der Gegenpol dazu ist im Beitrag Seltene Erkrankungen: Warum Medizin besonders schwierig wird, wenn Daten fehlen schon angelegt: Medizin scheitert nicht nur an falschen Daten, sondern oft auch an fehlenden.

Wo große Datensätze in die Irre führen

Gerade weil Real-World-Daten so nah an der Versorgung liegen, laden sie zu einem gefährlichen Kurzschluss ein: viel Umfang gleich viel Wahrheit. Doch der Alltag produziert keine neutrale Evidenzmaschine. Er produziert Datenspuren unter Bedingungen von Zeitdruck, Kodierregeln, institutionellen Anreizen und ungleicher Beobachtung.

Ein typisches Problem ist Confounding. Menschen bekommen Therapien nicht zufällig, sondern weil Ärztinnen etwas vermuten, weil Kliniken andere Standards haben oder weil bestimmte Patientengruppen enger überwacht werden. Schon eine scheinbar harmlose Ungleichverteilung kann Effekte verzerren. Wer das für eine Randfrage hält, sollte sich an die allgemeine Logik von Scheinkorrelationen erinnern: Daten können sehr überzeugend aussehen und trotzdem einen falschen kausalen Eindruck erzeugen.

Hinzu kommen Messlücken. Claims-Daten zeigen oft, dass eine Leistung abgerechnet wurde, aber nicht unbedingt, wie schwer eine Erkrankung im klinischen Sinn war. Elektronische Akten enthalten zwar mehr Tiefe, aber diese Tiefe ist ungleich verteilt. Manche Variablen sind präzise dokumentiert, andere verschwinden in Freitext, werden uneinheitlich erhoben oder fehlen gerade bei den Fällen, die methodisch besonders heikel sind. Die NICE-Empfehlungen machen deshalb zu Recht auf Datenprovenienz, Datenqualität und Fitness for Purpose als Vorbedingung aufmerksam, nicht als Nachgedanken.

Und dann ist da noch die Linkage-Frage. Moderne Real-World-Evidence lebt oft davon, Datenquellen zu verknüpfen: Krankenhausdaten mit Mortalitätsdaten, Register mit Abrechnung, ambulante mit stationärer Versorgung. Genau dadurch steigt der Erkenntniswert. Aber genau dort wachsen auch Fehlerquellen, wie die erwähnte FDA-Leitlinie zu EHR- und Claims-Daten hervorhebt: falsche Zuordnungen, unvollständige Historien, verzerrte Teilpopulationen.

Schließlich ist Gesundheitsdatenforschung nie nur eine technische Angelegenheit. Sie lebt von Legitimität, Vertrauen und Schutzräumen. Wo Gesundheitsdaten großflächig genutzt werden, stellt sich immer auch die Frage, wer unter welchen Regeln sehen, verknüpfen und auswerten darf. Wer diese Ebene vertiefen will, findet in Datenschutz als Freiheitsfrage den größeren politischen Rahmen.

Die eigentliche Stärke liegt im Zusammenspiel

Die klügste Sicht auf Real-World-Daten ist deshalb weder euphorisch noch abwehrend. Sie behandelt sie als zweite Evidenzlogik. Randomisierte Studien sind stark, wenn es um saubere Kausalfragen unter kontrollierten Bedingungen geht. Real-World-Daten sind stark, wenn Medizin unter wirklichen Versorgungsbedingungen sichtbar werden soll: in ihrer Breite, Dauer, Heterogenität und manchmal auch in ihren hässlichen, unordentlichen Rändern.

Die entscheidende Frage lautet also nicht: Was ist besser, Studie oder Alltag? Sondern: Welche Frage stelle ich, und welche Art von Daten kann sie mit welchen Verzerrungen beantworten?

Wer das sauber trennt, sieht den eigentlichen Wert von Real-World-Daten. Sie korrigieren nicht einfach die klinische Studie. Sie zeigen, was nach ihr passiert. Ob Menschen ein Medikament wirklich lange nehmen. Ob Nebenwirkungen außerhalb engmaschiger Studienbetreuung anders auffallen. Ob eine scheinbar robuste Wirksamkeit im Versorgungsalltag nur für bestimmte Untergruppen trägt. Kurz: Sie machen sichtbar, dass Medizin nicht nur im Protokoll stattfindet, sondern im gelebten Leben.

Gerade deshalb verdienen Real-World-Daten weder blinden Respekt noch reflexhafte Abwertung. Sie verdienen die gleiche intellektuelle Disziplin, die man auch von guten Studien erwartet. Erst dann werden aus Versorgungsspuren belastbare Einsichten.

Autorenprofil

Benjamin Metzig ist Gründer, Autor und redaktionell Verantwortlicher von Wissenschaftswelle.de. Wissenschaftswelle ist ein persönlich geführtes redaktionelles Wissensprojekt, das komplexe Themen aus unterschiedlichen Fachbereichen sorgfältig recherchiert, strukturiert und verständlich aufbereitet. Moderne Recherche-, Analyse- und KI-Werkzeuge dienen dabei als Unterstützung, während Auswahl, Einordnung, Ton, Quellenbewertung und Veröffentlichung redaktionell bei Benjamin Metzig verantwortet bleiben. Mehr zum Profil: Autorenprofil von Benjamin Metzig.

Wenn du Wissenschaftswelle auch jenseits des Blogs verfolgen willst, schau hier vorbei: Instagram und Facebook