KI im Gerichtssaal: Wenn Algorithmen über Bewährung, Rückfallquoten und Strafmaß entscheiden

Benjamin Metzig
vor 2 Stunden
6 Min. Lesezeit

Dunkler Gerichtssaal mit einer Person vor dem Richterpult, darüber ein transparentes digitales Risikodisplay; gelbe Schlagzeile „KI VOR GERICHT“, rotes Banner „WAS ALGORITHMEN MIT STRAFEN MACHEN“.

Es klingt nach Zukunft, ist aber längst Gegenwart: In Gerichten, Bewährungssystemen und Gefängnissen arbeiten heute vielerorts Modelle mit, die einschätzen sollen, wie wahrscheinlich jemand rückfällig wird, ob eine Person vor Gericht erscheint oder wie engmaschig sie überwacht werden sollte. Sie heißen dann nicht unbedingt "KI-Richter", oft wirken sie viel nüchterner: als Risikoscore, Prognosemodell oder Entscheidungshilfe in einer Akte. Genau das macht sie so folgenreich. Denn sie treten selten als offen autoritäre Maschine auf, sondern als sachlich wirkendes Werkzeug.

Die entscheidende Frage lautet deshalb nicht, ob Maschinen morgen Richterinnen und Richter vollständig ersetzen. Die spannendere und gefährlichere Frage ist: Was passiert, wenn Wahrscheinlichkeiten den Ton angeben, noch bevor ein Mensch sein Urteil bildet?

Was solche Systeme überhaupt machen

Zuerst die wichtigste Präzisierung: Diese Systeme berechnen in der Regel keine Schuld und keine "gerechte Strafe". Sie sagen nicht, ob jemand moralisch schlecht ist oder wie viel Leid ein Verbrechen verdient. Sie versuchen vielmehr, aus vorhandenen Daten Risiken abzuleiten. Laut dem National Institute of Justice werden solche Instrumente genutzt, um Entscheidungen über Freilassung vor dem Prozess, Sicherheitsstufen im Vollzug, Zugang zu Programmen und Intensität der Aufsicht nach der Haft zu unterstützen. Auch nach dem Urteil spielen sie eine Rolle, etwa bei der Zuweisung von Maßnahmen oder der Einschätzung von Rückfallrisiken, wie die NIJ-Leitlinien für Post-Sentencing Risk Assessment zeigen.

Definition: Was ein Risikoscore ist

Ein Risikoscore ist keine Wahrheit über einen Menschen, sondern eine verdichtete Wahrscheinlichkeitsschätzung auf Basis früherer Daten. Er sagt also nicht, was jemand "ist", sondern wie ähnlich ein Fall statistisch anderen Fällen erscheint.

Genau darin steckt die Verführungskraft. Gerichte und Behörden arbeiten unter Zeitdruck, mit knappen Ressourcen und hohem Rechtfertigungsdruck. Ein Score verspricht Ordnung: konsistente Einschätzungen, nachvollziehbare Kategorien, weniger Bauchgefühl, mehr Daten. Auf dem Papier klingt das fast unvermeidlich modern.

Warum die Technik für Justizsysteme so attraktiv ist

Es wäre zu einfach, das Ganze als bloßen Technikfetisch abzutun. Die Attraktivität dieser Systeme hat rationale Gründe. Strafjustiz ist ein Feld permanenter Unsicherheit. Richterinnen und Richter, Bewährungshelfer und Vollzugsbehörden müssen ständig Prognosen treffen: Wer erscheint zuverlässig zu Terminen? Wer stellt eine reale Gefahr dar? Bei wem helfen Programme mehr als härtere Kontrolle? Wer wird unnötig inhaftiert?

Die Hoffnung lautet: Wenn Menschen ohnehin Vorhersagen treffen müssen, dann vielleicht lieber mit statistischer Unterstützung als mit Vorurteilen, Müdigkeit, politischem Druck oder Alltagsintuition. Diese Hoffnung ist nicht völlig aus der Luft gegriffen. Die bekannte Studie Human Decisions and Machine Predictions von Kleinberg, Lakkaraju, Leskovec, Ludwig und Mullainathan kommt für Kautionsentscheidungen zu dem Ergebnis, dass algorithmische Vorhersagen in Simulationen sowohl Kriminalität als auch Inhaftierung senken könnten, wenn man Personen konsequent nach prognostiziertem Risiko statt nach uneinheitlicher richterlicher Praxis sortieren würde.

Das ist wichtig, weil es eine bequeme Erzählung zerstört: nämlich die, dass menschliche Entscheidung allein schon deshalb gerechter sei, weil sie menschlich ist. Menschen urteilen nicht im luftleeren Raum. Sie urteilen unter Stress, mit begrenzten Informationen, unter medialem Druck und innerhalb von Institutionen, die selbst voller Ungleichheiten stecken.

Wo das Versprechen kippt

Genau hier beginnt aber das eigentliche Problem. Denn ein besseres Vorhersagemodell ist nicht automatisch ein gerechteres System. Ein Algorithmus lernt aus Vergangenheitsdaten. Und diese Daten sind nicht neutral. Sie tragen die Handschrift der Welt, aus der sie stammen: Polizeikontrollen, Anzeigepraxis, Wohnort, soziale Ungleichheit, frühere Verurteilungen, institutionelle Routinen und politische Prioritäten. Wer aus solchen Daten "Risiko" berechnet, lernt niemals nur Verhalten. Er lernt immer auch etwas über das System, das dieses Verhalten misst, verfolgt und dokumentiert.

Das heißt nicht, dass jeder Score zwangsläufig wertlos wäre. Es heißt aber, dass sich historische Verzerrungen in eine neue Form von Objektivität verwandeln können. Vorurteil wird dann nicht abgeschafft, sondern formalisiert. Aus einer sozialen Schieflage wird eine saubere Zahl.

Besonders heikel ist dabei die Scheinpräzision. Ein numerischer Wert vermittelt Kontrolle. Er sieht aus wie Wissen, auch wenn er in Wahrheit eine probabilistische Schätzung unter vielen Annahmen ist. Gerade in hochsensiblen Entscheidungen über Freiheit, Auflagen oder Strafmaß kann das fatal sein. Denn je präziser ein Score wirkt, desto schwerer wird es, seine Voraussetzungen politisch und moralisch infrage zu stellen.

Der Fall COMPAS und die Black-Box-Frage

Kaum ein System steht so symbolisch für diese Debatte wie COMPAS. Große Aufmerksamkeit bekam das Modell durch die Analyse von ProPublica, die 2016 anhand von Daten aus Broward County zeigte, wie stark Fehlerraten und Gruppenunterschiede die Debatte über Fairness prägten. Seitdem ist klarer denn je: Man kann nicht einfach behaupten, ein Score sei "objektiv", nur weil er mathematisch berechnet wird.

Hinzu kommt die Black-Box-Frage. Wenn ein System proprietär ist oder seine genaue Funktionsweise in der Praxis kaum überprüfbar bleibt, entsteht ein massives rechtsstaatliches Problem. Wie soll sich eine betroffene Person gegen eine Risikobewertung wehren, deren innere Logik sie nicht nachvollziehen kann? Wie sollen Anwälte, Gerichte oder die Öffentlichkeit prüfen, ob ein Score unzulässige Verzerrungen enthält, wenn große Teile des Systems faktisch abgeschirmt sind?

Genau diese Spannung wurde im Fall State v. Loomis sichtbar. Das Wisconsin Supreme Court ließ die Berücksichtigung eines COMPAS-Scores bei der Strafzumessung grundsätzlich zu, setzte aber klare Grenzen: Solche Scores dürfen nicht der bestimmende Faktor sein. Das Gericht erkannte also implizit etwas Entscheidendes an: Der Score kann unterstützen, darf aber rechtsstaatliche Verantwortung nicht ersetzen.

Das Fairness-Problem ist kein Bug, sondern ein Konflikt

Oft wird so gesprochen, als müssten Entwickler nur noch ein paar Verzerrungen "herausrechnen", dann sei das Problem gelöst. Das greift zu kurz. In solchen Systemen stoßen verschiedene Fairnessvorstellungen aufeinander. Will man gleiche Fehlerraten zwischen Gruppen? Gleiche Kalibrierung? Gleiche Falsch-Positiv-Raten? Gleiche Chancen auf Freilassung? Diese Ziele lassen sich nicht immer gleichzeitig erfüllen.

Darum ist Fairness hier keine rein technische Optimierungsaufgabe, sondern ein politischer Zielkonflikt. Wer einen Score baut, trifft Entscheidungen darüber, welche Fehler schlimmer sind als andere. Ist es gravierender, eine Person zu Unrecht als hohes Risiko einzustufen? Oder gefährlicher, ein tatsächliches Risiko zu unterschätzen? Soll ein System lieber insgesamt treffsicherer sein oder bestimmte Gruppen vor übermäßiger Belastung schützen? Solche Fragen kann keine Formel allein beantworten, weil sie Werturteile enthalten.

Der Score tarnt diese Werturteile nur oft besser, als ein Mensch es könnte. Gerade deshalb wirkt er so neutral.

Warum der Mensch an der letzten Stelle nicht automatisch rettet

Ein häufiger Einwand lautet: "Am Ende entscheidet doch immer noch ein Mensch." Formal stimmt das oft. Praktisch ist es nur die halbe Wahrheit. Ein Score kann enormen Einfluss entfalten, auch wenn er nicht das letzte Wort hat. Er kann zum stillen Referenzpunkt werden, von dem Abweichungen erklärt werden müssen. Er kann Routine beschleunigen, Akten priorisieren, Entscheidungen absichern oder richterliche Verantwortung scheinbar teilen.

Besonders aufschlussreich ist hier die neuere Forschung von Sino Esthappan. Auf Basis von Interviews mit US-Richterinnen und -Richtern zeigt sie, dass Risikoscores nicht einfach blind übernommen oder komplett ignoriert werden. Sie werden selektiv genutzt: bei Routinefällen als zeitsparende Stütze, bei heiklen Fällen mit Skepsis, manchmal auch als Schutzschild gegen Kritik. Anders gesagt: Die Maschine ersetzt den Menschen nicht, sondern verändert die Art, wie Menschen Verantwortung organisieren.

Das ist vielleicht die subtilste Pointe der ganzen Debatte. Die eigentliche Macht algorithmischer Systeme liegt nicht nur in einzelnen Fehlprognosen. Sie liegt darin, dass sie institutionelles Verhalten umformen. Sie verschieben, was als vernünftig, begründbar und professionell gilt.

Was Regulierung leisten kann und was nicht

Die Politik hat das Problem inzwischen erkannt. Der EU AI Act behandelt KI-Systeme in der Rechtspflege als Hochrisiko-Bereich und betont, dass solche Systeme die richterliche Entscheidung unterstützen dürfen, sie aber nicht ersetzen sollen. Das ist ein wichtiger Grundsatz. Er hält fest, dass Freiheit und Rechtsschutz nicht an ein automatisiertes Verfahren delegiert werden dürfen wie eine Empfehlung im Online-Shop.

Doch Regulierung löst nur einen Teil des Problems. Transparenzpflichten, Audits, Dokumentation und menschliche Aufsicht sind notwendig. Aber sie beantworten noch nicht die tiefere Frage: Welche Entscheidungen wollen wir überhaupt statistisch vorstrukturieren? Nicht jede technisch mögliche Prognose ist auch normativ legitim. Ein Staat kann sehr effizient werden und gerade dadurch ungerechter.

Deshalb reicht es nicht, über "verantwortungsvolle KI" zu sprechen. Wir müssen auch über verantwortungsvolle Institutionen sprechen. Ein transparenter Score in einem unfairen System bleibt Teil eines unfairen Systems.

Die unbequeme Wahrheit hinter dem Hype

Der größte Irrtum in dieser Debatte ist vielleicht, dass es einen klaren Gegensatz zwischen kalter Maschine und warmem Menschen gäbe. In Wirklichkeit sind beide Seiten ineinander verschränkt. Menschen bauen die Modelle, wählen die Daten, definieren die Zielgrößen, setzen die Schwellenwerte und entscheiden, wie viel Autorität sie dem Ergebnis geben. Das System ist also nicht weniger politisch, nur weil Mathematik im Spiel ist.

Gerade deshalb sind Sätze wie "Die KI hat entschieden" so irreführend. Sie verdecken, dass hinter jeder scheinbar technischen Entscheidung normative Prioritäten stehen: Sicherheit vor Freiheit? Effizienz vor Einzelfall? Standardisierung vor Kontext? Verwaltungskomfort vor Anfechtbarkeit? Der Algorithmus zieht diese Fragen nicht aus der Welt. Er zwingt uns nur, sie in anderer Form wiederzufinden.

Wenn man es hart formulieren will, dann so: Das Problem im Gerichtssaal ist nicht die allmächtige Maschine. Das Problem ist die Versuchung, umkämpfte moralische und politische Entscheidungen in den Anschein neutraler Berechnung zu kleiden.

Was jetzt gelten müsste

Wenn solche Systeme überhaupt eingesetzt werden, dann nur unter strengen Bedingungen. Die Zwecke müssen eng begrenzt sein. Die Modelle müssen überprüfbar bleiben. Betroffene brauchen echte Möglichkeiten zum Widerspruch. Reale Folgen müssen laufend evaluiert werden, nicht nur auf PowerPoint-Folien, sondern anhand belastbarer Daten. Und vor allem muss klar bleiben: Ein Risikoscore ist eine Entscheidungshilfe, keine Abkürzung aus der Verantwortung.

Vielleicht ist das die nüchternste Formulierung des ganzen Themas: Algorithmen können in eng umrissenen Vorhersageaufgaben nützlich sein. Aber je stärker ihre Ergebnisse in Freiheitsrechte eingreifen, desto weniger darf man sich von ihrer numerischen Eleganz blenden lassen.

Denn Recht ist mehr als Prognose. Und Gerechtigkeit ist mehr als eine Wahrscheinlichkeit.

Für mehr Analysen und Einordnungen findest du Wissenschaftswelle auch auf Instagram und Facebook.