Zuverlässigkeitsingenieurwesen: Wie man Ausfälle berechnet, bevor sie passieren

Benjamin Metzig
vor 4 Stunden
6 Min. Lesezeit

Eine metallische Turbine mit leuchtenden Sensordaten und Risiko-Kurven, die das Berechnen technischer Ausfälle symbolisiert.

Wenn eine Brücke gesperrt wird, ein Rechenzentrum ausfällt oder ein Herzschrittmacher vorzeitig ersetzt werden muss, wirkt das im Nachhinein oft wie ein plötzlicher Bruch. In Wahrheit ist "plötzlich" in technischen Systemen meist nur der Moment, in dem ein langer Prozess sichtbar wird. Material ermüdet. Lötstellen altern. Dichtungen härten aus. Sensoren driften. Softwarepfade werden nur in seltenen Kombinationen problematisch. Und irgendwo dazwischen steht ein Fachgebiet, das versucht, genau diese Übergänge vom Funktionieren zum Versagen nicht nur zu beschreiben, sondern vorwegnehmbar zu machen: das Zuverlässigkeitsingenieurwesen.

Das Ziel ist größer als bloße Schadensvermeidung. Es geht darum, Systeme so zu entwerfen und zu betreiben, dass sie unter realen Bedingungen mit hoher Wahrscheinlichkeit tun, was sie tun sollen. In der Sprache des NIST/SEMATECH-Handbuchs zur Produktzuverlässigkeit heißt das im Kern: Zuverlässigkeit ist eine Wahrscheinlichkeitsaussage über Funktion, Bedingungen und Zeit. Genau an dieser Kombination hängt alles. Ein Bauteil kann heute funktionieren und morgen ausfallen. Ein anderes hält zehn Jahre, aber nur bei bestimmten Temperaturen. Ein System kann eine beeindruckende durchschnittliche Lebensdauer haben und trotzdem in den ersten Monaten unangenehm viele Frühausfälle produzieren.

Warum Durchschnittswerte oft trügerisch sind

Die populärste Kennzahl der Zuverlässigkeitswelt ist die MTBF, also die mittlere Zeit zwischen Ausfällen. Sie klingt wunderbar greifbar: 100.000 Stunden, 500.000 Stunden, eine Million Stunden. Das Problem ist nur, dass diese Zahl sehr leicht mehr Klarheit vortäuscht, als sie tatsächlich liefert. Das NIST-Kapitel zu Exponentialtests macht den entscheidenden Punkt deutlich: MTBF ist vor allem dann sauber interpretierbar, wenn man eine konstante Ausfallrate annimmt. Genau das ist aber in vielen realen Systemen nur phasenweise plausibel.

Zwei Produkte können dieselbe MTBF haben und sich im Alltag trotzdem völlig unterschiedlich verhalten. Das eine kann früh reihenweise ausfallen und danach lange stabil laufen. Das andere kann zunächst unauffällig wirken und erst im Alter rapide problematisch werden. Wer nur auf den Mittelwert schaut, verwechselt statistische Bequemlichkeit mit technischem Verständnis.

Merksatz: Was Zuverlässigkeit wirklich fragt

Nicht: "Wie lange hält es im Schnitt?" Sondern: "Mit welcher Wahrscheinlichkeit funktioniert es nach einer bestimmten Zeit unter einer bestimmten Belastung noch?"

Genau deshalb arbeitet das Zuverlässigkeitsingenieurwesen nicht primär mit einem einzigen Durchschnittswert, sondern mit Verteilungen, Ausfallraten und Überlebensfunktionen.

Die eigentliche Hauptfigur: die Ausfallrate

Eine zentrale Größe ist die Ausfallrate, oft als Hazard Rate bezeichnet. Sie beschreibt nicht einfach, wie viele Teile insgesamt kaputtgehen, sondern wie groß das Ausfallrisiko für die Exemplare ist, die bis zu einem bestimmten Zeitpunkt überhaupt noch durchgehalten haben. Dieser Blick ist wesentlich präziser, weil er Alterung und Nutzungsgeschichte einbezieht.

Im NIST-Modell der Badewannenkurve zeigt sich, warum das so wichtig ist. Viele technische Produkte durchlaufen drei typische Phasen:

zuerst eine Phase erhöhter Frühausfälle, etwa durch Fertigungsfehler, Montageprobleme oder verborgene Materialschwächen
dann eine relativ stabile Nutzungsphase mit ungefähr konstanter Ausfallrate
schließlich eine Verschleißphase, in der Alterung, Risse, Korrosion oder Drift die Ausfallwahrscheinlichkeit ansteigen lassen

Die berühmte Badewannenkurve ist kein Naturgesetz für jedes einzelne Produkt. Aber sie ist ein starkes empirisches Denkmodell. Sie erinnert daran, dass "ein Risiko" in technischen Lebensläufen oft mehrere Gesichter hat.

Warum die Weibull-Verteilung in der Praxis so mächtig ist

Wenn Zuverlässigkeitsingenieurinnen eine statistische Sprache für unterschiedliche Ausfallmuster brauchen, landen sie sehr oft bei der Weibull-Verteilung. Ihr großer Vorteil ist nicht Eleganz, sondern Anpassungsfähigkeit. Mit ihrem Formparameter kann sie fallende, annähernd konstante oder steigende Ausfallraten abbilden.

Das ist praktisch Gold wert:

Liegt der Formparameter unter 1, spricht das für dominierende Frühausfälle.
Liegt er ungefähr bei 1, verhält sich das System näherungsweise wie im Exponentialmodell mit konstanter Ausfallrate.
Liegt er über 1, deutet das auf Verschleiß und zunehmende Alterung hin.

Plötzlich wird die Statistik zur Diagnose. Dieselbe Lebensdauerzahl bekommt eine andere Bedeutung, wenn klar ist, ob ein Produkt "krank geboren" wird oder "gesund altert". Das ist einer der Punkte, an denen Zuverlässigkeitsingenieurwesen mehr ist als Mathematik: Es übersetzt Kurven in Designentscheidungen.

Wie man Daten über Ausfälle bekommt, bevor man Jahre warten müsste

Hier beginnt die eigentliche Kunst. Denn man kann Zuverlässigkeit nicht rechnen, wenn man keine brauchbaren Daten hat. Und gerade bei hochwertigen Komponenten ist das Problem unerquicklich: Sie sollen lange halten. Also liefern reale Nutzungsbedingungen oft zu wenige Ausfälle, um in vernünftiger Zeit robuste Schlüsse zu ziehen.

Deshalb spielen Lebensdauertests eine so große Rolle. Das NIST-Kapitel zu Accelerated Life Tests beschreibt die Logik sehr klar: Man erhöht gezielt Belastungen wie Temperatur, Spannung oder Feuchte, um Alterungsprozesse zu beschleunigen und innerhalb eines vertretbaren Zeitfensters auswertbare Ausfalldaten zu erzeugen. Aber genau hier lauert eine methodische Falle. Wer zu aggressiv beschleunigt, provoziert womöglich Fehlermodi, die im realen Einsatz nie auftreten würden. Dann misst man nicht die Zukunft des Produkts, sondern ein künstliches Laborproblem.

Hinzu kommt ein zweites Thema, das außerhalb des Fachs oft unterschätzt wird: zensierte Daten. Viele Testobjekte fallen während eines Tests gar nicht aus. Diese "Nicht-Ausfälle" sind keine lästige Restmenge, sondern unverzichtbare Information. Sie sagen nämlich, dass ein Bauteil mindestens bis zu einem bestimmten Zeitpunkt überlebt hat. Gute Zuverlässigkeitsanalysen rechnen deshalb nicht nur mit den Defekten, sondern auch mit dem Schweigen der Robusteren.

Vom einzelnen Bauteil zum ganzen System

Ein einzelner Lüfter kann robust sein und trotzdem kann das gesamte System fragil bleiben. Denn technische Wirklichkeit ist fast immer verkettet. Ein Ausfall kann kompensiert, verstärkt, weitergereicht oder durch unglückliche Kombinationen erst relevant werden. Genau hier kommen Methoden wie FMEA, FMECA und Fault Tree Analysis ins Spiel.

Das NASA-Handbuch zur FMECA beschreibt die bottom-up-Perspektive: Man geht Komponente für Komponente durch, fragt nach möglichen Fehlermodi, nach ihren Ursachen, ihren lokalen Effekten und ihrer Kritikalität. Der Nutzen ist brutal praktisch. Man zwingt ein Projektteam dazu, nicht nur den Idealzustand eines Systems zu verstehen, sondern seine konkreten Arten des Scheiterns.

Die NASA Fault Tree Analysis schaut von der anderen Seite: top-down. Statt mit dem defekten Teil zu beginnen, beginnt man mit einem unerwünschten Ereignis, etwa "Stromversorgung fällt aus" oder "Mission scheitert", und zerlegt logisch, welche Kombinationen von Teilereignissen dazu führen können. Das ist mehr als Papierdisziplin. Fault Trees zeigen, wo Redundanz wirklich schützt, wo sie nur scheinbar schützt und wo sogenannte Common-Cause-Fehler mehrere Sicherungen gleichzeitig entwerten können.

Kernidee: Systemzuverlässigkeit ist nicht die Summe guter Teile

Ein System wird nicht allein dadurch zuverlässig, dass seine Komponenten einzeln stark sind. Entscheidend ist, wie Fehler sich koppeln, maskieren oder vervielfachen.

Diese Logik führt direkt zur probabilistischen Risikoanalyse. Wie NASA in einem Überblick zu Reliability und Probabilistic Risk Assessment betont, geht es dabei letztlich um drei Fragen: Was kann schiefgehen? Wie wahrscheinlich ist das? Und wie schwer wären die Folgen? Zuverlässigkeit ist damit nicht nur eine Material- oder Konstruktionsfrage, sondern eine Entscheidungstechnik.

Warum Wartung heute datenreicher, aber nicht automatisch klüger wird

Lange Zeit war Wartung vor allem kalender- oder laufzeitbasiert organisiert. Nach 500 Betriebsstunden tauschen, alle zwei Jahre prüfen, alle fünf Jahre überholen. Das funktioniert, ist aber oft grob. Es tauscht manche Teile zu früh und andere zu spät.

Der Übergang zu Reliability-Centered Maintenance und zustandsorientierter Instandhaltung versucht genau dieses Dilemma aufzulösen. Das DoD-Manual zur Reliability-Centered Maintenance stellt den Grundgedanken nüchtern dar: Wartung soll nicht ritualisiert sein, sondern aus Funktion, Fehlermodus, Konsequenz und realem Zustand eines Systems abgeleitet werden.

Moderne Sensorik verschiebt diese Logik weiter. Schwingungsdaten, Temperaturprofile, Stromaufnahmen, Druckverläufe oder Schmierstoffanalysen können anzeigen, dass eine Komponente nicht mehr im gesunden Bereich arbeitet. In der Sprache von NASA-Prognostics and Health Management geht es dann nicht nur um Fehlererkennung, sondern um Prognosen zur verbleibenden Nutzungsdauer.

Das klingt nach der perfekten Zukunft, ist aber nur unter Bedingungen so mächtig, wie es oft versprochen wird. Sensoren allein sagen noch nicht, warum etwas altert. Maschinelles Lernen allein ersetzt keine Kenntnis des Fehlermodus. Und wer nur historische Muster reproduziert, kann neue oder seltene Ausfallarten leicht übersehen. Gute Predictive Maintenance ist deshalb kein Sieg der Daten über die Ingenieurkunst, sondern ihre neue Arbeitsteilung.

Was das gesellschaftlich bedeutet

Zuverlässigkeitsingenieurwesen klingt trocken, ist aber politischer und sozialer, als der Name vermuten lässt. Es entscheidet mit darüber, wie teuer Energieinfrastruktur betrieben werden kann, wie sicher Verkehrssysteme sind, wie lange Implantate im Körper bleiben, wie stabil Lieferketten funktionieren und wie viel ungeplanter Stillstand eine Volkswirtschaft aushält.

Gerade in einer Welt, die elektrischer, digitaler und dichter vernetzt wird, steigt die Fallhöhe. Eine Wärmepumpe ist nicht nur ein Gerät. Sie hängt an Stromnetzen, Regelungselektronik, Sensorik und Software. Ein Rechenzentrum ist nicht nur ein Gebäude voller Server, sondern ein Knoten aus Stromversorgung, Kühlung, Ersatzteilen, Brandschutz und menschlichen Prozessen. Ein Ausfall ist selten nur ein Defekt. Er ist oft ein Netzereignis.

Darum ist Zuverlässigkeit auch eine Frage der Prioritätensetzung. Will man mit möglichst wenig Reserve fahren, spart man kurzfristig Kosten und kauft langfristig Verletzlichkeit ein. Baut man zu viel Redundanz, steigen Preis, Materialverbrauch und Komplexität. Zuverlässigkeitsingenieurwesen ist die Disziplin, die dieses Spannungsfeld quantifizierbar macht, statt es nur intuitiv zu verhandeln.

Hier schließt sich auch der Kreis zu anderen Wissenschaftswelle-Themen: zu Normen und Standards, weil Wartung, Austauschbarkeit und Prüfverfahren ohne Standards kaum skalieren; zu Bayes im Alltag, weil Zuverlässigkeitsarbeit ständig mit neuen Evidenzen und aktualisierten Wahrscheinlichkeiten operiert; und zu Brückenversagen verstehen, weil dort sichtbar wird, was passiert, wenn Alterung, Fehlannahmen und institutionelle Trägheit zusammenkommen.

Der eigentliche Punkt

Man berechnet Ausfälle nicht, indem man die Zukunft exakt kennt. Man berechnet sie, indem man Unsicherheit strukturiert. Man sammelt Felddaten, modelliert Lebensdauern, trennt Frühausfälle von Verschleiß, identifiziert Fehlermodi, analysiert Systempfade und koppelt all das an Wartungs- und Designentscheidungen.

Das ist die nüchterne Größe dieses Fachs: Es verspricht keine Unsterblichkeit von Technik. Aber es macht sichtbar, wo Systeme verletzlich sind, lange bevor sie spektakulär versagen. Und genau darin liegt sein gesellschaftlicher Wert. Denn die beste Katastrophe ist nicht die gut gemanagte, sondern die, deren statistische Vorboten ernst genug genommen wurden, als sie noch nur wie unscheinbare Datenpunkte aussahen.

Mehr Wissenschaftswelle: Instagram Facebook