Fehlertoleranz verstehen: Warum gute Technik mit dem Scheitern ihrer Teile rechnet

Benjamin Metzig
vor 2 Stunden
6 Min. Lesezeit

Quadratisches Titelbild mit gelber 3D-Überschrift „Fehler sind eingeplant“, rotem Banner „Robust durch geplante Ausfälle“ und einem zentralen leuchtenden Netzwerk aus Maschinen, Leitungen und Serverknoten, bei dem einzelne defekte Module isoliert bleiben.

Wir sprechen über Technik gern so, als wäre ihr Ideal die makellose Maschine: fehlerfrei, präzise, unerschütterlich. Tatsächlich ist das Gegenteil näher an der Realität. Die besten technischen Systeme sind nicht deshalb gut, weil nie etwas kaputtgeht. Sie sind gut, weil sie mit Ausfällen rechnen. Sie planen sie ein, begrenzen ihre Folgen und halten trotzdem den Betrieb aufrecht.

Genau das meint Fehlertoleranz. Das NIST definiert sie nüchtern als Eigenschaft eines Systems, auch dann korrekt zu funktionieren, wenn Komponenten ausfallen. Nüchtern ist das richtige Wort, denn in dieser Definition steckt eine kleine kulturgeschichtliche Zumutung: Gute Technik beruht nicht auf der Illusion totaler Kontrolle, sondern auf dem Eingeständnis, dass Kontrolle immer begrenzt ist.

Fehlertoleranz ist nicht dasselbe wie Fehlerfreiheit

Wer nur auf Perfektion setzt, baut fragil. Ein System, das nur im Idealzustand funktioniert, ist unter realen Bedingungen oft erstaunlich schwach. Verschleiß, Produktionsstreuung, Bedienfehler, Softwarebugs, Spannungsschwankungen, Wetterereignisse oder überraschende Lastspitzen gehören nun einmal zur Welt. Die Frage lautet also nicht, ob Fehler auftreten, sondern was danach passiert.

Das NASA Systems Engineering Handbook beschreibt Fault Management deshalb nicht nur als Reaktion auf Defekte, sondern als ganzen Katalog von Fähigkeiten: Störungen verhindern, erkennen, diagnostizieren, eingrenzen, darauf reagieren und sich davon erholen. Fehlertoleranz ist in diesem Sinn kein einzelnes Backup, sondern eine Architektur des Weiterfunktionierens.

Gerade in sicherheitskritischen Bereichen ist das offensichtlich. Raumfahrt, Luftfahrt, Intensivmedizin, Stromversorgung oder Rechenzentren können es sich nicht leisten, beim ersten Ausfall schlicht stehenzubleiben. Dort wird Technik nicht als starres Objekt verstanden, sondern als kontrollierter Prozess unter schlechten Bedingungen.

Kernidee: Gute Technik ist nicht unzerbrechlich

Gute Technik ist so gebaut, dass Brüche lokal bleiben, erkannt werden und nicht sofort das Ganze zerstören.

Das Missverständnis mit der Redundanz

Wenn Menschen an Fehlertoleranz denken, denken sie meist an Redundanz: zwei Motoren statt einem, mehrere Server statt einem, eine Notstromversorgung hinter der Hauptversorgung. Das ist nicht falsch. Es ist nur unvollständig.

Das NASA Fault Management Handbook zeigt sehr klar, warum. Dort wird beschrieben, dass Redundanz allein ein System nicht automatisch sicher macht. Entscheidend ist, wie Redundanz organisiert ist, wie Fehler erkannt werden, wie Umschaltung funktioniert und ob das Gesamtsystem unter realen Störbedingungen überhaupt verlässlich reagiert.

Ein klassisches Beispiel ist die Voting-Architektur: Mehrere Recheneinheiten bearbeiten dieselbe Aufgabe, und ein Mehrheitsentscheid filtert den offensichtlichen Ausreißer heraus. Das klingt robust, und oft ist es das auch. Aber nur solange die Ausfälle unabhängig voneinander sind. Wenn alle Einheiten denselben Konstruktionsfehler, dieselbe fehlerhafte Softwareversion oder dieselbe Stromversorgung teilen, kann dieselbe Ursache alle Redundanzen gleichzeitig treffen.

Genau hier beginnt die eigentliche Ingenieurskunst.

Warum identische Backups oft weniger helfen als gedacht

Das NREL verweist in seiner Literaturübersicht zu Resilienz darauf, dass N+1-Redundanz in vielen technischen Bereichen Standard ist: Zu jedem kritischen Element kommt mindestens ein Reserveelement hinzu. Gleichzeitig macht der Bericht deutlich, dass gemeinsame Fehlerursachen dieses Modell unterlaufen können. Wenn etwa zwei Dieselgeneratoren vorhanden sind, aber beide am selben knappen Treibstoff hängen, steigt die Zahl der Aggregate, nicht aber automatisch die Resilienz.

Noch schärfer formuliert es ein aktueller NASA-Beitrag zu Common Cause Failures: Redundanz verbessert die Zuverlässigkeit nur dann stark, wenn die Fehler unabhängig sind. Gegen gemeinsame Ursachen hilft identische Vervielfachung nur begrenzt. Das ist eine der wichtigsten Lektionen moderner Technik: Mehr vom Gleichen ist nicht automatisch robuster.

Darum arbeiten Hochrisikosysteme oft mit Vielfalt statt bloß mit Verdopplung. Unterschiedliche Sensorprinzipien, getrennte Strompfade, räumliche Trennung, alternative Softwarepfade oder sogar bewusst unähnliche Backup-Systeme reduzieren die Wahrscheinlichkeit, dass ein einzelner Fehler alles zugleich trifft. In der bemannten Raumfahrt ist diese Idee zentral. Das NASA-Handbuch betont ausdrücklich, dass ähnliche Redundanz und unähnliche Redundanz je nach Risiko unterschiedlich bewertet werden müssen.

Fehlertolerante Systeme isolieren, bevor sie reparieren

Ein robustes System muss nicht nur Reserven haben. Es muss Störungen eingrenzen können. Die NASA arbeitet dafür mit dem Gedanken von Fault Containment Regions: Zonen, in denen ein Fehler zwar Auswirkungen haben darf, aber eben nicht darüber hinaus. Das ist im Kern dieselbe Logik, die wir aus modernen Rechenzentren, Mikroservice-Architekturen oder Stromnetzen kennen: Nicht jeder Defekt darf sich zur Gesamtkatastrophe auswachsen.

Besonders gut lässt sich das an digitaler Infrastruktur zeigen. Google beschreibt in seinem SRE-Kapitel zu cascading failures ein einfaches, aber hartes Prinzip: Wenn ein Dienst unter Last gerät, sollte er lieber kontrolliert Anfragen ablehnen oder nur degradierte Ergebnisse liefern, statt sich in eine Kettenreaktion aus Abstürzen hineinziehen zu lassen. Ein schlecht gebautes System kippt. Ein gut gebautes System wird erst unkomfortabel und bleibt dabei am Leben.

Das klingt unspektakulär, ist aber eine tiefe kulturelle Verschiebung. Viele Ingenieurinnen und Ingenieure suchen noch immer instinktiv nach maximaler Leistung im Normalbetrieb. Fehlertoleranz zwingt zu einer anderen Priorität: nicht nur gut funktionieren, wenn alles gut läuft, sondern berechenbar funktionieren, wenn etwas schiefläuft.

Der Ernstfall zeigt, was Architektur wirklich wert ist

Wie gesellschaftlich relevant diese Frage ist, wird besonders dort sichtbar, wo Infrastrukturen groß und eng gekoppelt sind. Im Bericht Electricity 2026 nennt die Internationale Energieagentur den großflächigen Blackout auf der Iberischen Halbinsel vom 28. April 2025 als ein Lehrstück für Kettenreaktionen: Spannungsschwankungen, begrenzte Blindleistungsaufnahme, schnelle Abschaltungen und weitere Frequenzverluste verstärkten sich innerhalb von Sekunden zu einem Systemkollaps. Gleichzeitig zeigt der Bericht, dass grenzüberschreitende Verbindungen und vorbereitete Wiederanlaufverfahren die Wiederherstellung beschleunigten.

Das ist die doppelte Wahrheit der Fehlertoleranz in Netzen: Komplexe Kopplung kann Systeme verletzlich machen. Sie kann aber auch Rettung ermöglichen, wenn alternative Pfade, Reservekapazitäten und gute Protokolle existieren.

Die IEA-Studie zur Energiesystem-Resilienz von 2026 formuliert daraus fast eine politische Maxime: Resiliente Systeme müssen Störungen antizipieren, betroffene Teile isolieren und Versorgung schnell wiederherstellen. Das ist nicht nur eine technische Detailfrage für Fachleute. Es ist eine Bedingung dafür, dass moderne Gesellschaften bei Krisen nicht sofort in Kaskaden aus Ausfall, Desinformation, Produktionsstillstand und sozialem Stress geraten.

Fehlertoleranz ist auch eine Frage der Organisation

Viele Ausfälle entstehen nicht nur durch schlechte Hardware oder zu knappe Dimensionierung. Sie entstehen, weil Organisationen ihr eigenes Risikoniveau nicht ehrlich definieren. Auch hier ist die SRE-Perspektive interessant. In Embracing Risk argumentiert Google, dass 100 Prozent Zuverlässigkeit kein realistisches und oft nicht einmal sinnvolles Ziel ist. Maximale Zuverlässigkeit kostet überproportional viel und kann Innovation lähmen.

Der Punkt ist nicht, Fehler zu akzeptieren, weil sie egal wären. Der Punkt ist, Risiken explizit zu machen. Welche Ausfallrate ist tragbar? Welche Arten von Störung sind hinnehmbar? Wann wird neue Funktionalität gestoppt, weil die Stabilität leidet? Googles Konzept des Error Budgets ist deshalb so interessant, weil es aus einer technischen Frage eine Managementfrage mit messbaren Grenzen macht.

Das heißt im Umkehrschluss: Fehlertoleranz scheitert oft nicht an der Physik, sondern an Eitelkeit. Systeme werden fragil, wenn Teams so tun, als ließe sich Unsicherheit wegmoderieren.

Ohne Lernen wird aus Fehlertoleranz bloß Glück

Ein fehlertolerantes System muss aus Störungen lernen können. Sonst überlebt es den ersten Fehler vielleicht, wiederholt ihn aber beim nächsten Mal größer. Genau deshalb ist Googles Kapitel zur Postmortem-Kultur mehr als ein Softwaredetail. Dort wird betont, dass Vorfälle dokumentiert, überprüft und breit geteilt werden müssen, damit aus einem Ausfall Wissen wird statt bloßer Erschöpfung.

Auch in anderen Bereichen gilt dasselbe Prinzip. Brücken, Flugzeuge, Krankenhäuser, Stromnetze oder industrielle Anlagen werden nur dann besser, wenn Beinahefehler, Abweichungen und Ausfälle systematisch ausgewertet werden. Wer nur auf den nächsten reibungslosen Tag hofft, betreibt keine Fehlertoleranz, sondern Glücksspiel.

Die fünf Prinzipien wirklich robuster Technik

Wer das Thema auf seinen Kern herunterbrechen will, landet meist bei fünf Prinzipien:

Redundanz: Kritische Funktionen brauchen Reservepfade.
Diversität: Reserven dürfen nicht dieselben blinden Flecken teilen.
Isolation: Fehler müssen lokal bleiben können.
Graceful Degradation: Systeme sollen lieber schlechter als gar nicht funktionieren.
Lernfähigkeit: Tests, Monitoring und Postmortems müssen aus Störungen dauerhafte Verbesserungen machen.

Diese Prinzipien tauchen in sehr unterschiedlichen Domänen wieder auf. Sie verbinden die Logik hinter Notstromaggregaten, Flugsteuerungen, Datenreplikation, Lastabwurf, Sicherheitsventilen und Fehlerkorrekturcodes. Wer dazu tiefer einsteigen will, findet bei Wissenschaftswelle bereits passende Anschlussstücke, etwa zu Fehlerkorrigierenden Codes, zu Brückenversagen oder zu der Frage, warum globale Systeme heute eher auf Resilienz statt Effizienz getrimmt werden müssen.

Warum dieses Thema gerade jetzt wichtiger wird

Je stärker Gesellschaften elektrifiziert, digitalisiert und automatisiert werden, desto mehr hängt der Alltag davon ab, dass Störungen nicht sofort systemisch werden. Wärmepumpen, Rechenzentren, Lieferplattformen, Krankenhaustechnik, Verkehrssteuerung, Zahlungsinfrastruktur und KI-Dienste bilden kein loses Nebeneinander mehr. Sie sind gekoppelte Systeme mit gemeinsamen Abhängigkeiten.

Das macht Fehlertoleranz zur politischen Ökonomie der Technik. Die Frage lautet nicht bloß: Ist dieses Gerät clever gebaut? Sondern: Welche Art von Gesellschaft entsteht, wenn kritische Technik nur im Schönwetterbetrieb stabil bleibt?

Eine reife technische Kultur misst sich deshalb nicht daran, wie überzeugend sie Perfektion inszeniert. Sie misst sich daran, wie gut sie mit Unvollkommenheit rechnet. Gute Technik ist nicht die, die niemals fällt. Gute Technik ist die, die auch im Fallen nicht alles mitreißt.

Mehr Wissenschaft für dich täglich auf: Instagram Facebook