Wenn Sensoren streiten: Wie Sensorfusion aus Widerspruch Orientierung baut

Benjamin Metzig
vor 2 Minuten
8 Min. Lesezeit

Dreigeteiltes Cover zur Sensorfusion: eine regennasse Straße bei Dämmerung, eine blau punktierte Lidar-Silhouette eines Fußgängers und ein orangefarbenes Radarbild derselben Szene.

Ein Gerät, das seine Umwelt erfassen soll, beginnt selten mit Klarheit. Auf einer nassen Straße in der Dämmerung kann eine Kamera im Spiegelglanz des Asphalts freien Raum sehen, wo in Wahrheit eine Grenze verläuft. Das Radar meldet zugleich ein Objekt, aber nur grob umrissen. Das Lidar zeichnet schärfere Konturen, verliert jedoch bei Wetter, Reichweite oder ungünstigen Reflexionen an Sicherheit. Die IMU im Inneren spürt jede Drehung und jede Beschleunigung, verwechselt Eigenbewegung aber leicht mit Weltlage, wenn ihre Fehler langsam auflaufen.

Wer in so einer Lage von "mehr Daten" spricht, verpasst den eigentlichen Punkt. Das Problem ist nicht bloß Mangel, sondern Widerspruch. Ein autonomes Fahrzeug, ein Roboter oder auch ein Smartphone muss in Echtzeit entscheiden, welcher Messung es in welchem Moment trauen darf. Genau dort beginnt Sensorfusion.

Der Begriff klingt, als würden verschiedene Signale einfach zusammenfließen. In der Praxis ist Sensorfusion viel nüchterner und viel anspruchsvoller. Sie ist die laufende Kunst, Unsicherheit zu verwalten. Nicht jeder Sensor sieht dasselbe, nicht jeder misst im selben Takt, nicht jeder irrt auf dieselbe Weise. Klug wird ein System erst dann, wenn es diese Unterschiede nicht verdeckt, sondern systematisch ausnutzt.

Warum einzelne Sensoren systematisch irren

Jeder Sensortyp hat ein eigenes Talent und einen eigenen blinden Fleck. Kameras sind stark, wenn es um Textur, Farbe und semantische Hinweise geht. Deshalb sind sie etwa für Spurmarkierungen, Ampelfarben oder Gesten so nützlich. Aber wie die Lidar-Einführung von Texas Instruments ausführt, hängen Kameras stark von den Lichtverhältnissen ab und benötigen zudem erhebliche Verarbeitung, bevor aus Pixeln überhaupt belastbare Weltinformation wird.

Radar liegt fast am entgegengesetzten Ende. Es ist robust bei Regen, Nebel und Dunkelheit und misst Entfernungen sowie Relativgeschwindigkeiten direkt. In derselben technischen Gegenüberstellung betont Texas Instruments, dass klassische mmWave-Radare lange vor allem an ihrer Winkelauflösung litten: Sie wussten oft gut, dass dort "etwas" ist und wie schnell es sich bewegt, aber weniger gut, was genau dort steht und wie fein die Szene strukturiert ist.

Lidar wiederum liefert ein geometrisch viel schärferes Bild der Umgebung. Es erzeugt keine Farbfotografie, aber eine räumliche Punktwolke, in der Kanten, Abstände und Formen oft sehr präzise erscheinen. Dafür hat Lidar andere Schwächen. Je nach Verfahren, Wellenlänge und Umgebung kann seine Leistung bei Niederschlag, Nebel oder stark störenden Reflexionen nachlassen. Es ist also nicht der perfekte Sinn, sondern ein sehr guter Spezialist.

Dann gibt es die Sensoren, die man von außen kaum wahrnimmt: Beschleunigungsmesser, Gyroskope, Magnetometer. Inertialsensoren sind entscheidend, weil sie nicht nur die Umwelt, sondern auch die Eigenbewegung eines Systems erfassen. Ohne sie wäre schwer zu unterscheiden, ob sich ein Objekt vor der Kamera bewegt oder ob sich die Kamera selbst gedreht hat. Gerade in der Robotik und Navigation sind solche Lagefragen fundamental; wer tiefer in die mathematische Seite von Rotationen einsteigen will, findet bei Wissenschaftswelle bereits einen Anschluss in Quaternionen: Warum vier Zahlen Drehungen retten, wenn drei Winkel versagen.

Das Problem: Inertialsensoren irren nicht spektakulär, sondern schleichend. Analog Devices beschreibt, wie Gyroskop-Drift aus Bias-Instabilität und zufälligem Rauschen entsteht. Solche Fehler integrieren sich über die Zeit zu immer größeren Lageabweichungen auf. Ein Sensor kann also kurzfristig sehr nützlich sein und langfristig trotzdem in die Irre führen.

Die wichtigste Einsicht lautet deshalb: Sensoren ergänzen sich nicht trotz ihrer Fehler, sondern wegen ihrer Fehlerprofile. Eine Kamera weiß oft mehr über Bedeutung, Radar mehr über Bewegung, Lidar mehr über Geometrie, die IMU mehr über Dynamik. Sensorfusion beginnt dort, wo diese Verschiedenheit als Ressource behandelt wird.

Fusion heißt nicht addieren, sondern abstimmen

Wenn man Daten verschiedener Sensoren zusammenbringen will, muss man zuerst drei profane Fragen klären: Wann wurde gemessen? Von wo aus wurde gemessen? Und mit welchem Fehlerkorridor?

Die erste Frage betrifft die Zeit. Sensoren liefern nicht im selben Takt. Eine Kamera arbeitet in Frames, ein Radar in Zyklen, ein Lidar tastet zeilen- oder scanweise, eine IMU feuert oft mit viel höherer Frequenz. Wer diese Daten einfach nebeneinanderlegt, fusioniert nicht Weltzustände, sondern zeitlich versetzte Ausschnitte. Bei langsamen Anwendungen fällt das kaum auf. Bei einem Fahrzeug, das bremst, oder einem Roboterarm, der greift, kann es entscheidend sein.

Die zweite Frage betrifft die Geometrie. Ein Radar sitzt an einer anderen Stelle als eine Kamera, die Kamera wieder anders als das Lidar. Alle messen also aus leicht verschiedenen Perspektiven. Damit ihre Daten zusammenpassen, müssen die räumlichen Beziehungen zwischen ihnen kalibriert sein. Ein paar Millimeter oder wenige Winkelgrade Fehler können reichen, damit ein Objekt in einem Sensormodell sauber vor dem Fahrbahnrand liegt und im anderen halb darin verschwindet. Genau diese stille Präzisionsarbeit steckt auch hinter vielen Robotikproblemen; Wissenschaftswelle hat das in Der Millimeter, der Ausschuss macht: Warum Roboter ihre Welt ständig neu vermessen müssen bereits aus einer anderen Richtung beleuchtet.

Die dritte Frage ist die unangenehmste, weil sie Ehrlichkeit verlangt. Jeder Sensor hat Messrauschen, Aussetzer, Sättigungseffekte, Drift und situationsabhängige Schwächen. Eine gute Fusion behandelt Messwerte nicht als Wahrheiten, sondern als Hypothesen mit Vertrauensniveau. Genau deshalb ist der historische Bezug auf R. E. Kalman bis heute so zentral. Schon 1960 ging es dort nicht darum, möglichst viele Daten zu sammeln, sondern aus verrauschten Beobachtungen rekursiv den wahrscheinlichsten Zustand eines Systems zu schätzen.

Merksatz: Das Herz der Sensorfusion

Sensorfusion baut keine perfekte Sicht auf die Welt. Sie baut das bestmögliche Arbeitsmodell unter Unsicherheit.

Dieser Punkt ist wichtig, weil er eine populäre Fehlannahme korrigiert: Ein fusioniertes System "weiß" nicht einfach mehr. Es verwaltet Unsicherheit besser. Es kann die Schwächen eines Sensors gegen die Stärken eines anderen verrechnen, solange seine Annahmen über Zeit, Lage und Fehler halbwegs stimmen.

Was passiert, wenn Sensoren einander widersprechen

Spannend wird Sensorfusion nicht dort, wo alle Signale dasselbe sagen, sondern dort, wo sie auseinanderlaufen. Ein Kamerabild kann durch Gegenlicht eine Situation falsch lesen. Radar meldet aber weiterhin eine Bewegung auf Kollisionskurs. Lidar liefert eine geometrische Struktur, die weder zur freien Fahrbahn noch zu einem bloßen Schatten passt. Dann hilft kein naiver Mehrheitsentscheid, denn Sensoren stimmen nicht wie Wahlzettel ab.

Gute Fusion fragt stattdessen: Welcher Widerspruch ist typisch? Welcher Sensor versagt in genau dieser Situation am wahrscheinlichsten? Welche Fehler sind kurzfristig plausibel, welche systematisch? Solche Entscheidungen stecken sowohl in klassischen Filtern als auch in moderneren datengetriebenen Verfahren.

Eine Fachübersicht aus Tsinghua beschreibt das für Kamera-, Lidar- und IMU-Systeme sehr klar: Fusion wird gerade deshalb allgegenwärtig, weil einzelne Sensoren in anspruchsvollen Umgebungen an unvermeidliche Grenzen stoßen. Monokulare Kameras leiden etwa unter Skalendrift, IMUs unter langfristiger Drift, Lidar unter strukturarmen Szenen oder anderen situativen Defiziten. Die kombinierte Schätzung ist nicht luxuriöser Zusatz, sondern oft die Bedingung dafür, dass ein System überhaupt stabil bleibt.

Ähnlich argumentiert die Übersichtsarbeit von Yao et al. für Radar-Kamera-Fusion: Gerade die komplementären Eigenschaften machen diese Kombination attraktiv, weil Radar wetter- und lichtrobust ist, Kameras dafür reichhaltige visuelle Information liefern. Das Entscheidende daran ist nicht die Liste der Vorteile, sondern das Muster dahinter: Ein Sensor deckt nicht nur ab, was der andere nicht kann, sondern hilft zugleich, dessen Fehler als Fehler zu erkennen.

Das ist ein qualitativer Sprung. Eine Kamera kann ein Objekt sehen, ohne seine Geschwindigkeit direkt zu kennen. Radar kann Geschwindigkeit messen, ohne aus wenigen Reflexionen immer eine saubere Objektklasse zu machen. Erst zusammen entsteht eine robustere Hypothese darüber, ob dort ein Mensch, ein Fahrrad, ein Straßenschild oder bloß ein Reflex in der Szene ist.

Warum die harte Arbeit oft vor der eigentlichen KI liegt

Oft wird Sensorfusion als Unterabteilung von Künstlicher Intelligenz erzählt. Das ist nicht ganz falsch, aber ungenau. Viele der schwierigsten Probleme entstehen schon davor: Sensoren müssen zeitlich synchronisiert, räumlich referenziert, thermisch kompensiert, gegen Ausreißer robust gemacht und mit plausiblen Weltmodellen verbunden werden.

Deshalb ist der Begriff "Fusion" in der Praxis breiter als ein einziges neuronales Netz. Er kann bedeuten, dass Rohdaten früh kombiniert werden. Er kann aber ebenso heißen, dass jede Modalität zunächst ihre eigene Deutung liefert und erst spätere Stufen die Ergebnisse zusammenführen. Mal steht die geometrische Konsistenz im Zentrum, mal die probabilistische Zustandsschätzung, mal die Merkmalsfusion in einem Lernsystem.

Der Unterschied ist nicht akademisch. Je früher fusioniert wird, desto stärker hängt alles an präziser Kalibrierung und Datenhygiene. Je später fusioniert wird, desto eher bleiben einzelne Fehlerquellen getrennt sichtbar, aber man verschenkt eventuell Synergien. Es gibt also keine allgemeingültig beste Stelle für Fusion, sondern nur gute Entscheidungen für konkrete Aufgaben.

Genau an diesem Punkt zeigt sich auch, warum reine Mustererkennung oft nicht reicht. Ein System kann in Trainingsdaten gelernt haben, wie häufig Kamera- und Radarhinweise zusammenpassen. In realen Randfällen braucht es aber oft zusätzlich Regeln, Kinematik, Kartenwissen oder physikalische Nebenbedingungen. Das berührt denselben Grundgedanken, der auch hinter dem Beitrag Wenn Wahrscheinlichkeiten nicht reichen: Warum neuro-symbolische KI auf Regeln zurückkommt steht: Gute Systeme werden robuster, wenn Statistik nicht allein gelassen wird.

Sensorfusion ist auch eine Latenzfrage

Viele Fusionen müssen dort stattfinden, wo die Entscheidung fällt. Ein Smartphone, das seine Lage stabilisiert, ein Roboter, der eine Kante ertastet, oder ein Fahrzeug, das ein plötzliches Hindernis erkennt, kann nicht erst gemütlich Daten in entfernte Rechenzentren schicken und auf Rückmeldung warten. Deshalb ist Sensorfusion häufig ein Paradefall lokaler, latenzarmer Verarbeitung.

Hier berührt sich das Thema mit Edge AI. Nicht weil jeder Fusionsprozess automatisch "KI" heißen muss, sondern weil Wahrnehmung unter Zeitdruck fast immer nah an der Maschine bleiben muss. Das ist weniger glamourös als futuristische Demos, aber oft der eigentliche technische Ernstfall.

Man sieht daran auch, warum Sensorfusion nicht nur ein Autothema ist. In der Robotik kann eine Kamera mit taktilen Sensoren, Kraftmessung und IMU-Daten kombiniert werden. Gerade dort wird deutlich, dass Wahrnehmung multimodal werden muss, sobald die Welt nicht mehr sauber, statisch und laborfreundlich ist. Der Wissenschaftswelle-Beitrag Die Berührung muss erst lesbar werden: Was künstliche Haut für Roboter wirklich kann zeigt aus einer anderen Perspektive, wie viel Intelligenz schon darin steckt, verschiedene Signale überhaupt in ein gemeinsames Lagebild zu übersetzen.

Warum Redundanz nicht Luxus ist

Außerhalb technischer Diskussionen klingt Redundanz oft nach Verschwendung. In sicherheitskritischen Systemen ist sie eher eine Form organisierter Bescheidenheit. Man akzeptiert, dass kein Sensor allein verlässlich genug ist, also baut man Überlappung ein. Nicht weil alle ständig dasselbe messen sollen, sondern weil Systeme mit Ausfällen, Verzerrungen und Grenzfällen umgehen müssen.

Die US-Verkehrsbehörde NHTSA formuliert das nüchtern: Automatisierte Fahrfunktionen können Gefahren unter Umständen schneller erkennen und darauf reagieren als Menschen. Damit aus diesem Potenzial reale Sicherheit wird, braucht es aber gerade keine magische Maschine, sondern robuste Wahrnehmung unter Unsicherheit. Sensorfusion ist ein Teil dieser Robustheit, nicht ihr Werbewort.

Das erklärt auch, warum die Debatte um einzelne Sensortypen oft zu kurz greift. Die interessante Frage lautet selten, ob Kamera, Radar oder Lidar "gewinnt". Sie lautet, welche Kombination für welche Aufgabe genug Redundanz, genug Auflösung, genug Reichweite und genug Fehlertoleranz bietet. Mal ist ein Sensor verzichtbar, mal nicht. Mal hilft mehr Vielfalt, mal erhöht sie nur die Komplexität. Die richtige Antwort hängt an Anwendung, Umgebung und akzeptiertem Risiko.

Der eigentliche Intelligenzgewinn

Sensorfusion macht Geräte nicht deshalb klüger, weil sie mehr Sinnesorgane besitzen. Sie macht sie klüger, wenn sie gelernt haben, dass jede Wahrnehmung situiert ist. Ein Sensor sieht nie "die Wirklichkeit", sondern immer eine Version davon: gefiltert durch Geometrie, Material, Wetter, Perspektive, Eigenbewegung und Messrauschen.

Darum ist der eigentliche Fortschritt auch kein Triumph vollständiger Kontrolle. Es ist ein Fortschritt im Umgang mit Zweifel. Ein gutes Fusionssystem kann sagen: Diese Kamera liefert gerade semantisch reiche, aber unsichere Daten. Dieses Radar ist grob, aber robust. Diese IMU ist kurzfristig präzise, driftet aber über Zeit. Dieses Lidar sieht die Form sehr klar, verliert jedoch unter bestimmten Bedingungen an Sicherheit. Erst aus dieser sortierten Skepsis entsteht ein belastbares Weltmodell.

Maschinen werden also nicht klug, wenn Sensoren schweigenlos dasselbe behaupten. Sie werden klug, wenn sie mit Widerspruch umgehen lernen.

Autorenprofil

Benjamin Metzig ist Gründer, Autor und redaktionell Verantwortlicher von Wissenschaftswelle.de. Wissenschaftswelle ist ein persönlich geführtes redaktionelles Wissensprojekt, das komplexe Themen aus unterschiedlichen Fachbereichen sorgfältig recherchiert, strukturiert und verständlich aufbereitet. Moderne Recherche-, Analyse- und KI-Werkzeuge dienen dabei als Unterstützung, während Auswahl, Einordnung, Ton, Quellenbewertung und Veröffentlichung redaktionell bei Benjamin Metzig verantwortet bleiben. Mehr zum Profil: Autorenprofil von Benjamin Metzig.

Für weitere Einordnungen und neue Beiträge: Instagram und Facebook.