Wenn KI irrt, beginnt der eigentliche Konflikt: Warum Fehler von Systemen zu Machtfragen werden

Benjamin Metzig
vor 8 Stunden
6 Min. Lesezeit

Quadratisches Cover mit gelber Überschrift „WENN KI IRRT“, rotem Banner „Wer haftet für den Fehler?“ und einer Gegenüberstellung aus einem zerbrochenen humanoiden KI-Kopf und einem menschlichen Profil vor dunklem Hintergrund.

KI-Fehler werden oft so behandelt, als handle es sich vor allem um technische Pannen. Ein Modell halluziniert. Ein Score liegt daneben. Ein Chatbot gibt Unsinn aus. Dann müsse man eben sauberer trainieren, besser testen, robuster absichern.

Das ist nicht falsch, aber zu kurz gedacht.

Denn der eigentliche gesellschaftliche Ärger beginnt meist nicht in dem Moment, in dem eine KI falsch liegt, sondern in dem Moment, in dem Menschen darüber streiten müssen, wer den Fehler bemerken, erklären, anfechten und ausbaden soll. Genau dort verwandelt sich ein technisches Problem in einen sozialen Konflikt.

Dass diese Konfliktzone wächst, ist gut dokumentiert. Der AI Index Report 2026 von Stanford HAI spricht von 362 dokumentierten KI-Vorfällen im Jahr 2025, nach 233 im Jahr 2024. Gleichzeitig erinnert das NIST AI Risk Management Framework daran, dass KI-Risiken grundsätzlich soziotechnisch sind. Das heißt: Sie entstehen nicht nur im Modell, sondern im Zusammenspiel aus Daten, Oberfläche, Arbeitsabläufen, Anreizen, Personal, Aufsicht und Nutzungskontext.

Kernidee: Ein KI-Fehler wird dann politisch, wenn unklar bleibt, wer widersprechen darf, wer den Schaden trägt und wer aus dem Vorfall institutionell lernen muss.

Der Fehler sitzt selten nur im Modell

Die bequemste Erzählung über KI lautet: Das System hat sich leider geirrt. Damit klingt der Vorfall fast wie ein Naturereignis. In Wahrheit sind die meisten problematischen Fälle organisatorisch produziert oder zumindest organisatorisch verschärft.

Vielleicht war die Trainingsbasis schief. Vielleicht war die Schwelle zu aggressiv gesetzt. Vielleicht wurde eine Empfehlung als Entscheidung verkauft. Vielleicht bekam das Personal nie die Zeit oder Autorität, dem System wirksam zu widersprechen. Vielleicht sahen Betroffene nur das Ergebnis, aber nicht den Weg dorthin.

Genau deshalb spricht auch die OECD bei KI-Risiken nicht nur über Genauigkeit, sondern über Verantwortung, Rechenschaft, Datenschutz, Diskriminierung und Sicherheitsfolgen. Ein KI-System kann technisch leistungsfähig und institutionell trotzdem schlecht eingebettet sein. Und dann ist der spätere Konflikt fast schon eingebaut.

Das ist ein zentraler Unterschied zu vielen klassischen Werkzeugen. Eine Tabellenkalkulation behauptet nicht, die Welt zu verstehen. Ein KI-System tut genau das oft indirekt: Es gibt Wahrscheinlichkeiten, Prioritäten, Empfehlungen oder scheinbar glatte Antworten aus. Damit produziert es Autorität. Und Autorität verändert, wie bereitwillig Menschen Ergebnisse akzeptieren.

Warum KI-Fehler besonders schnell eskalieren

Nicht jeder Irrtum wird zur Schlagzeile oder zum Rechtsfall. Bei KI gibt es aber vier Eigenschaften, die Konflikte systematisch verschärfen.

Erstens: Skalierung. Ein menschlicher Fehlentscheid bleibt oft lokal. Ein schlecht gesetzter Modellparameter kann tausende Fälle gleichförmig verformen. Dann reden wir nicht mehr über Pech, sondern über Verteilung von Schaden.

Zweitens: Undurchsichtigkeit. Wer nicht versteht, wie ein Ergebnis zustande kam, kann es schlechter anfechten. Das macht Widerspruch teuer, langsam und psychologisch unattraktiv.

Drittens: verteilte Verantwortung. Anbieter verweisen auf Nutzer, Nutzer auf Anbieter, Beschäftigte auf Vorgaben, Führungskräfte auf die Technologie, und am Ende hängt die betroffene Person in einem System, das Zuständigkeit eher zirkulieren als klären lässt.

Viertens: falsche Objektivität. Gerade weil KI mit Zahlen, Scores, Rankings oder sprachlicher Sicherheit auftritt, wirken ihre Fehler häufig neutraler, als sie sind. Das ist trügerisch. Ein schlecht erklärter Score ist nicht unpolitischer als ein Bauchgefühl, sondern oft nur schwerer angreifbar.

Wo die härtesten Konflikte entstehen

Im Kundenkontakt

Der berühmte Fall Moffatt v. Air Canada ist deshalb so interessant, weil er nicht bloß eine Chatbot-Panne zeigt. Er zeigt eine institutionelle Versuchung: die Verantwortung still an das Interface abzuschieben.

Ein Kunde erhielt vom Chatbot falsche Informationen zu einem Trauerfall-Tarif. Als daraus ein Streit entstand, half die Behauptung nicht weiter, der Chatbot sei im Grunde eine Art eigene Instanz. Genau diese Ausweichbewegung macht viele KI-Konflikte heute so aufgeladen. Unternehmen profitieren von Automatisierung, wollen aber im Schadensfall die Zurechnung verdünnen.

Die eigentliche Lehre lautet: Sobald KI Teil eines Angebots ist, ist sie kein atmosphärisches Extra mehr. Sie ist Teil der Verantwortungskette.

In Verwaltung und Sozialstaat

Noch heikler wird es dort, wo KI nicht nur Komfort betrifft, sondern Zugang zu Leistungen, Hilfen oder Rechten. Die OECD-Analyse zum KI-Einsatz in der Sozialverwaltung beschreibt ein wiederkehrendes Problem sehr klar: Mangelnde algorithmische Transparenz war in den untersuchten Fällen die wichtigste Grenze. Es fehlten öffentliche Register, veröffentlichter Code oder detaillierte Dokumentation. Genau das erschwert externe Kontrolle und macht Entscheidungen schwerer anfechtbar.

Das ist mehr als ein Verwaltungsdetail. Wenn Menschen nicht nachvollziehen können, warum sie aussortiert, priorisiert oder gesondert geprüft werden, kippt Vertrauen schnell in Verdacht. Dann steht nicht nur eine einzelne Entscheidung zur Debatte, sondern die Legitimität des gesamten Verfahrens.

Besonders brisant ist das, weil öffentliche Stellen häufig in Bereichen operieren, in denen Fehler asymmetrisch wirken. Eine zu spät erkannte Bedürftigkeit ist kein kleiner Statistikfehler. Sie kann materielle Folgen haben. Deshalb ist die Frage nach Erklärbarkeit hier nie bloß technisch, sondern demokratisch.

Am Arbeitsplatz

Die dritte große Konfliktzone liegt im Unternehmen. Dort taucht KI oft nicht als spektakulärer Roboter auf, sondern als Software für Schichtplanung, Leistungsbewertung, Bewerbervorsortierung, Qualitätskontrolle oder Risikoflagging.

Gerade diese nüchternen Anwendungen sind konfliktträchtig. Der neue OECD-Bericht zur algorithmischen Steuerung von Arbeit zeigt: Unter Managern, die solche Systeme bereits nutzen, ist die häufigste genannte Sorge die unklare Verantwortlichkeit bei einer falschen Entscheidung. Danach folgen mangelnde Nachvollziehbarkeit und unzureichender Schutz der physischen oder psychischen Gesundheit von Beschäftigten.

Das ist bemerkenswert. Denn selbst dort, wo Unternehmen die Effizienzgewinne sehen, bleibt die Governance-Frage ungelöst. Wer ist verantwortlich, wenn eine fehlerhafte Priorisierung zu Stress, Nachteilen oder ungerechter Bewertung führt? Die Person mit dem Dashboard? Das Management? Der Anbieter? Oder am Ende doch die Beschäftigten, die sich gegen ein System verteidigen müssen, das als rational verkauft wurde?

Warum bessere Modelle allein das Problem nicht lösen

Es ist verführerisch, auf all das mit einem rein technischen Reflex zu antworten: bessere Benchmarks, weniger Halluzinationen, robustere Safety-Layer. All das ist sinnvoll. Aber es löst nur einen Teil des Problems.

Denn Konflikte entzünden sich nicht nur an der Fehlerquote, sondern an fehlenden Verfahren. Ein System kann selten falsch liegen und trotzdem hoch problematisch sein, wenn Betroffene keinen verständlichen Widerspruchsweg haben. Umgekehrt kann ein System mit begrenzter Fehlertoleranz gesellschaftlich tragfähiger sein, wenn klar geregelt ist, wie Menschen eingreifen, dokumentieren, korrigieren und entschädigen.

Die regulatorische Bewegung geht deshalb längst in eine andere Richtung als bloße Modelloptimierung. Im EU AI Act, Artikel 26, werden für bestimmte Hochrisiko-Systeme genau solche Pflichten hervorgehoben: menschliche Aufsicht, Monitoring, Log-Aufbewahrung und Meldepflichten bei Risiken oder Vorfällen. Artikel 27 verlangt zusätzlich in bestimmten Fällen eine Grundrechtsfolgenabschätzung vor dem Einsatz.

Auch außerhalb Europas ist die Stoßrichtung ähnlich. Die kanadische Algorithmic Impact Assessment zwingt Behörden dazu, Risiken früh zu strukturieren, die Folgen der Automatisierung öffentlich zu machen und die Bewertung bei Änderungen zu aktualisieren.

Das Entscheidende daran ist weniger Bürokratie als institutionelle Ehrlichkeit. Gute Governance tut so, als seien Fehler unvermeidbar und deshalb planbar. Schlechte Governance tut so, als werde Präzision das Problem schon erledigen.

Der eigentliche Prüfstein heißt Anfechtbarkeit

Wenn man einen einzelnen Maßstab wählen müsste, an dem sich der gesellschaftliche Reifegrad von KI-Systemen messen lässt, dann wäre es nicht die Brillanz der Demo. Es wäre die Qualität der Anfechtung.

Kann eine betroffene Person erkennen, dass KI im Spiel ist?

Kann sie verstehen, was das System überhaupt tun sollte?

Gibt es Logs, Dokumentation und eine verantwortliche Stelle?

Kann jemand mit echter Autorität den Output übersteuern?

Gibt es einen Weg, Schaden zu korrigieren, bevor er sich verfestigt?

Und lernt die Organisation aus Fehlern, statt sie nur kommunikativ einzufangen?

Solange diese Fragen offen bleiben, wird jeder neue KI-Fehler mehr sein als ein Bug. Er wird zum Testfall dafür, wie eine Gesellschaft Verantwortung organisiert, wenn Entscheidungen nicht mehr nur von Menschen allein getroffen, aber auch nicht wirklich von Maschinen übernommen werden.

Was Institutionen vor dem Einsatz klären müssten

Viele Debatten über KI drehen sich um große Zukunftsfragen. Für den Alltag wären oft schon vier nüchterne Vorabfragen revolutionär:

Faktencheck: Vor jeder KI-Einführung in sensiblen Bereichen sollte klar beantwortet sein:

Wer darf widersprechen? Wer muss dokumentieren? Wer haftet im Schadensfall? Wer entscheidet über Abschaltung oder Korrektur?

Diese Fragen sind unglamourös. Aber genau dort entscheidet sich, ob KI als Werkzeug eingebettet wird oder als diffuse Autorität über Menschen schwebt.

Der Punkt ist nicht, dass Menschen weniger fehleranfällig wären. Natürlich sind sie das nicht. Der Punkt ist, dass wir für menschliche Fehler historisch Verfahren entwickelt haben: Dienstaufsicht, Beschwerdewege, Einspruch, Haftung, Öffentlichkeit, Berufsethik, Gerichte. Bei KI werden diese Verfahren oft erst nachträglich zusammengesucht, wenn der Konflikt schon da ist.

KI-Fehler sind deshalb Machtfragen

Am Ende erzählt jeder KI-Fehler eine Verteilungsfrage. Wer bekommt die Effizienzgewinne? Wer trägt die Irrtumskosten? Wer muss zusätzliche Prüf- oder Nachweisarbeit leisten? Wer hat genug Wissen, Zeit und Sprache, um sich zu wehren? Und wer profitiert davon, wenn ein System zugleich wirkmächtig und schwer greifbar bleibt?

Darum ist die richtige Gegenfrage auf KI-Pannen nicht bloß: Wie verbessern wir das Modell?

Sie lautet: Wie bauen wir Institutionen, in denen unvermeidbare Fehler nicht automatisch in Ohnmacht, Intransparenz und Verantwortungsdiffusion umschlagen?

Erst wenn diese Frage ernsthaft beantwortet wird, hört KI auf, vor allem ein Faszinationsobjekt zu sein. Dann wird sie zu dem, was sie in Wirklichkeit längst ist: ein Infrastrukturthema für Macht, Rechte und Vertrauen.

Mehr solche Analysen findest du auch auf Instagram und Facebook.