KI in der Medizin war schon einmal die Zukunft

Benjamin Metzig
6. Mai
7 Min. Lesezeit

Quadratisches Cover mit gelber Überschrift „KI IN DER MEDIZIN“, rotem Banner „Warum der Hype schon älter ist“, links einem Arzt an einem historischen Klinikcomputer und rechts einer modernen radiologischen KI-Szene mit CT-Bild.

Wenn heute über KI in der Medizin gesprochen wird, klingt es oft, als beginne alles erst jetzt: mit Chatbots, großen Sprachmodellen, digitalen Assistenten, radiologischen Bildsystemen und der Verheißung, dass Maschinen bald schneller, billiger und vielleicht sogar klüger diagnostizieren als Menschen. Das Problem an dieser Erzählung ist nicht nur ihr Technikpathos. Sie ist auch historisch falsch.

Denn die Medizin träumt seit mehr als fünfzig Jahren davon, klinisches Urteilen technisch zu skalieren. Schon in den frühen 1970er Jahren liefen in Krankenhäusern Systeme, die Diagnosen strukturieren, Wahrscheinlichkeiten ordnen und Ärztinnen und Ärzten bessere Entscheidungen abverlangen sollten. Die heutige Welle ist deshalb nicht die Geburt der medizinischen KI. Sie ist ihr zweiter großer Anlauf. Und vielleicht ist gerade das die wichtigste Nachricht: Die neue Begeisterung wirkt revolutionär, folgt aber einem sehr alten Muster.

Die erste Überraschung: Medizinische KI begann nicht mit Deep Learning

Ein frühes Schlüsseldokument der Geschichte ist eine 1974 bei PubMed verzeichnete BMJ-Studie zur computerunterstützten Diagnose akuter Bauchschmerzen. Dort wurden 552 Fälle ausgewertet. Das System erreichte eine höhere diagnostische Trefferquote als der jeweils ranghöchste Kliniker. Noch interessanter ist aber, was in dieser Arbeit zwischen den Zeilen sichtbar wird: Der Computer war nicht einfach ein elektronischer Oberarzt. Er zwang zu strukturierter Datenerhebung, sauberer Begrifflichkeit und expliziter Entscheidungslogik.

Genau das wird in vielen Debatten bis heute unterschätzt. KI in der Medizin war von Anfang an nicht nur ein Intelligenzversprechen, sondern auch ein Ordnungsversprechen. Sie sollte nicht bloß antworten. Sie sollte unübersichtliche klinische Situationen in formal bearbeitbare Schritte zerlegen.

Das ist deshalb wichtig, weil hier bereits ein Grundkonflikt auftaucht, der bis heute nicht verschwunden ist: Was als „klügere Maschine“ erscheint, ist oft zunächst eine strengere Form von Standardisierung.

Kernidee: Der eigentliche historische Kern medizinischer KI

liegt nicht darin, dass Maschinen plötzlich ärztlich denken, sondern darin, dass Medizin in Regeln, Datenfelder, Wahrscheinlichkeiten und maschinenlesbare Muster übersetzt wird.

Dann kam der große Traum der Expertensysteme

In den 1970er Jahren wurde dieser Traum noch offensiver. Das bekannteste Symbol dafür ist MYCIN, ein in Stanford entwickeltes regelbasiertes System zur Empfehlung von Antibiotika bei schweren bakteriellen Infektionen. MYCIN wurde berühmt, weil es etwas verkörperte, das bis heute nachhallt: die Idee, medizinische Expertise lasse sich in Wenn-dann-Regeln gießen und anschließend technisch vervielfältigen.

Rückblickend wirkt das fast naiv. Damals war es kühn. Die Medizin hatte es mit komplexen, unsicheren und lebensrelevanten Entscheidungen zu tun. Und plötzlich stand die These im Raum, dass sich wenigstens ein Teil dieses Wissens explizit machen, speichern und wiederverwenden lässt. Das war intellektuell brillant. Es war aber auch der Beginn einer dauerhaften Versuchung: die klinische Wirklichkeit für formalisierbarer zu halten, als sie tatsächlich ist.

Spätestens INTERNIST-I zeigte, wo diese erste Euphorie an ihre Grenzen stieß. Das System sollte multiple Diagnosen in der Inneren Medizin unterstützen und wurde 1982 im New England Journal of Medicine evaluiert. Das Ergebnis war ernüchternd: interessant, ambitioniert, aber für echte klinische Anwendungen in seiner damaligen Form nicht verlässlich genug. Genannt wurden Defizite beim anatomischen und zeitlichen Denken, bei der Breite von Differenzialdiagnosen und bei der Erklärbarkeit.

Das ist der Punkt, an dem die Geschichte plötzlich sehr modern wirkt. Denn genau diese Probleme verfolgen medizinische KI bis heute in neuer Verpackung. Früher fehlten robuste Wissensrepräsentation und klinische Einbettung. Heute heißen die Probleme Generalisierbarkeit, Datenbias, Black Box, Workflow-Fit und Verantwortungsdiffusion. Die Oberfläche hat sich geändert. Die Grundspannung nicht.

Warum die erste Welle nicht einfach scheiterte, sondern den Boden vorbereitete

Es wäre trotzdem falsch, diese frühe Phase als bloßes Vorspiel gescheiterter Maschinenärzte zu erzählen. Die erste KI-Welle hat etwas vorbereitet, ohne das die zweite nie möglich gewesen wäre: den Gedanken, dass medizinisches Entscheiden systematisch formalisiert, gespeichert und ausgewertet werden kann.

Zwischen den Expertensystemen der 1970er Jahre und den Deep-Learning-Modellen der Gegenwart liegt deshalb keine leere Zeit. Dazwischen liegen Digitalisierung, elektronische Patientenakten, standardisierte Bildarchive, leistungsfähige Hardware und eine Medizin, die immer mehr Daten als Nebenprodukt ihres eigenen Alltags erzeugt. Moderne medizinische KI ist nicht einfach durch bessere Mathematik entstanden. Sie wurde auch durch eine veränderte Infrastruktur geboren.

Wer nur auf Algorithmen schaut, verpasst deshalb die Hälfte der Geschichte. Die zweite KI-Welle ist ebenso sehr eine Geschichte von Datenformaten, klinischen Geräten, Archivierung und Rechenleistung wie von wissenschaftlichen Durchbrüchen.

2017 verschob sich der Ton: Von Assistenz zu Konkurrenz

Ein symbolischer Wendepunkt war die Nature-Arbeit „Dermatologist-level classification of skin cancer with deep neural networks“ vom 25. Januar 2017. Das Team trainierte ein neuronales Netz mit 129.450 klinischen Bildern aus 2.032 Krankheitsklassen und testete es gegen 21 zertifizierte Dermatologinnen und Dermatologen. Das System erreichte bei den geprüften Aufgaben ein Leistungsniveau, das der Artikel ausdrücklich als mit Dermatologinnen und Dermatologen vergleichbar beschreibt.

Diese Arbeit war wissenschaftlich wichtig. Sie war aber auch rhetorisch folgenreich. Denn mit ihr verschob sich die öffentliche Vorstellung von medizinischer KI. Plötzlich ging es nicht mehr primär um strukturierende Entscheidungshilfe, sondern um Kompetenzvergleiche zwischen Mensch und Maschine. Aus Assistenz wurde Wettkampf. Aus klinischer Informatik wurde Zukunftsdrama.

Genau hier begann viel von dem heutigen Missverständnis. Denn beeindruckende Leistung in eng definierten Benchmarks ist nicht dasselbe wie robuste Versorgung in der Wirklichkeit eines Krankenhauses. Zwischen diesen beiden Ebenen liegt ein harter Übergang: andere Geräte, andere Patientengruppen, andere Dokumentationspraktiken, andere Fehlerkulturen, andere Haftungsfragen.

Der heutige Stand ist ernsthafter als der Hype, aber weniger magisch

Wer meint, medizinische KI sei noch immer bloß Zukunftsmusik, liegt inzwischen ebenfalls daneben. Die Technik ist längst in der regulierten Gegenwart angekommen. Die FDA erklärte am 6. Januar 2025, sie habe bereits mehr als 1.000 KI-fähige Medizinprodukte über bestehende Zulassungspfade autorisiert. Am selben Tag veröffentlichte die Behörde eine umfassende Draft Guidance für den gesamten Lebenszyklus KI-gestützter Medizinprodukte, also für Design, Dokumentation, Monitoring, Bias-Fragen und Produktpflege nach der Markteinführung.

Das ist ein entscheidender Befund. Medizinische KI ist nicht mehr nur ein Thema für Forschungslabore und Konferenzfolien. Sie ist ein regulatorischer Gegenstand, ein Markt, ein Beschaffungsproblem, ein Compliance-Thema und zunehmend auch ein infrastrukturelles Machtfeld. Wer solche Systeme baut, entscheidet nicht nur über Genauigkeit, sondern über Standards: Welche Daten gelten als relevant? Welche Patientinnen und Patienten werden normiert? Welche Fehler werden sichtbar und welche systematisch verdrängt?

Gerade deshalb ist die Geschichte von KI in der Medizin heute politischer als in der Ära von MYCIN. Damals ging es vor allem um die Frage: Kann das technisch funktionieren? Heute geht es zusätzlich um: Wer setzt diese Systeme ein, unter welchen Regeln, mit welchen Kontrollen und zu wessen Nutzen?

Der härteste Test beginnt oft erst nach dem Applaus

Die nüchternste Gegenkraft gegen KI-Rausch ist nicht Kulturkritik, sondern Methodik. Eine systematische Übersichtsarbeit mit Meta-Analyse zu ICU-Risikoscores wertete 572 Studien aus. Nur 84 davon, also 14,7 Prozent, waren extern validiert. Im Durchschnitt sank die AUROC in externen Datensätzen um 0,037, und bei fast der Hälfte der Studien lag der Rückgang über 0,05.

Das klingt technisch. In Wahrheit ist es eine journalistisch brillante Nachricht: Viele Modelle sehen im eigenen Trainingsumfeld besser aus, als sie in fremden Kliniken wirklich sind. Anders gesagt: Der härteste Test für medizinische KI beginnt oft erst dann, wenn das System das Krankenhaus wechselt.

Genau deshalb ist die aktuelle Debatte zu bequem, wenn sie nur fragt, ob KI in Studien „gut performt“. Die wichtigere Frage lautet, ob sie unter realen Bedingungen stabil bleibt. Medizin ist keine Bilddatenbank mit sauberen Labels. Sie ist voller Lücken, Ausnahmen, Zeitdruck, Übertragungsfehler, sozialer Unterschiede und historisch gewachsener Schieflagen.

Und dann sind da noch die alten Verzerrungen in neuem Gewand

Diese Schieflagen verschwinden nicht, wenn man sie mit Rechenleistung füttert. Die JAMA-Analyse zu Bias in EHR-basierten Machine-Learning-Systemen beschreibt sehr klar, wie fehlende Daten, Messfehler, verzerrte Stichproben, unklare Labels und Automationsgläubigkeit klinische Systeme in problematische Richtungen treiben können. KI übernimmt also nicht einfach medizinisches Wissen. Sie übernimmt häufig auch die blinden Flecken der Institutionen, aus denen ihre Daten stammen.

Das ist einer der Gründe, warum die Vorstellung vom neutralen medizinischen Algorithmus so gefährlich ist. Wenn Trainingsdaten soziale Ungleichheiten, Unterversorgung, sprachliche Barrieren oder systematische Unterdiagnosen enthalten, dann kann ein Modell diese Muster nicht nur reproduzieren, sondern mit dem Prestige mathematischer Objektivität zurück in den Alltag einspeisen.

Die alte Erzählung lautete: Der Mensch irrt, die Maschine korrigiert. Die ernstere Gegenwartserzählung lautet: Der Mensch irrt, die Maschine lernt aus diesen Irrtümern, und beide können sich anschließend gegenseitig bestätigen.

Das LLM-Kapitel ist neu, aber seine Logik ist alt

Mit großen Sprachmodellen ist die Debatte noch einmal explosiver geworden. Systeme, die plausibel formulieren, medizinische Fragen beantworten, Dokumentation zusammenfassen oder klinische Kommunikation vorstrukturieren, wirken sofort alltagsnah. Genau deshalb warnte die WHO am 16. Mai 2023 ausdrücklich vor vorschneller Nutzung im Gesundheitsbereich. Genannt werden plausible, aber falsche Antworten, Bias, Datenschutzprobleme, Desinformation und unzureichend geprüfte Systeme.

Diese Warnung steht nicht quer zur Geschichte. Sie passt perfekt hinein. Schon die erste Generation medizinischer KI war verführerisch, weil sie Kompetenz simulierte. Die heutige Generation ist verführerisch, weil sie zusätzlich Verständlichkeit simuliert. Ein System kann klinisch unsicher sein und dabei sprachlich äußerst souverän wirken. Genau darin liegt seine neue Gefahr.

Die WHO knüpft deshalb an ihre grundlegende Guidance von 2021 an: Schutz von Autonomie, Wohlergehen und Sicherheit, Transparenz, Verantwortlichkeit, Inklusion und Nachhaltigkeit. Das klingt auf den ersten Blick abstrakt. In Wahrheit ist es die verdichtete Lehre aus fünfzig Jahren medizinischer KI-Euphorie. Nicht jede technisch plausible Lösung ist eine gute medizinische Lösung. Nicht jede skalierbare Antwort ist verantwortbar. Und nicht jedes Tool, das klinisch nützlich wirkt, darf ohne saubere Prüfung als Fortschritt gelten.

Die eigentliche Pointe dieser Geschichte

Die überraschende Geschichte von KI in der Medizin ist also nicht, dass Maschinen plötzlich Menschen überholen. Überraschend ist etwas anderes: Wie hartnäckig die Medizin seit Jahrzehnten denselben Traum neu formuliert. Immer wieder kehrt die Hoffnung zurück, klinisches Urteilen lasse sich entlasten, standardisieren, beschleunigen und am Ende vielleicht technisch vervielfachen. Und immer wieder zeigt sich, dass genau dort, wo die Maschinen nützlich werden, neue Fragen der Macht, Verantwortung und Auswahl beginnen.

Darum ist die banalste Frage zur medizinischen KI auch die schwächste: Wird sie Ärztinnen und Ärzte ersetzen? Die stärkere Frage lautet, welche Teile medizinischen Urteilens künftig maschinell vorsortiert, unsichtbar normiert oder regulatorisch eingefasst werden. Nicht der Ersatz ist der Kern. Die Neuverteilung von Urteil ist der Kern.

Vielleicht ist das die erwachsenste Sicht auf KI in der Medizin: Sie ist weder bloß Hype noch bloß Heilsversprechen. Sie ist eine wiederkehrende Technologie der Verdichtung. Sie macht bestimmte Entscheidungen schneller, bestimmte Muster sichtbarer und bestimmte Prozesse überprüfbarer. Aber genau damit entscheidet sie auch, was als relevantes Signal gilt, welche Unsicherheit tolerierbar ist und wann ein Mensch einer Maschine widersprechen muss.

Die Zukunft der medizinischen KI wird deshalb nicht an der spektakulärsten Demo entschieden. Sie wird dort entschieden, wo Technik auf Klinikalltag trifft: in Validierung, Haftung, Workflow, Aufsicht, Bias-Kontrolle und der Frage, wie viel Urteil eine Gesellschaft delegieren will. Die Geschichte zeigt, dass diese Frage alt ist. Neu ist nur, wie groß ihre Reichweite inzwischen geworden ist.

Wenn du Wissenschaftswelle auch jenseits des Blogs verfolgen willst, schau hier vorbei: Instagram und Facebook