Wenn Quellen zu Textschichten werden: Wie Handschriftenerkennung mit KI historische Dokumente lesbar macht

Benjamin Metzig
28. Mai
6 Min. Lesezeit

Eine alte handschriftliche Manuskriptseite wird diagonal von Scannerlicht geteilt; links Tinte auf Pergament, rechts leuchtende maschinenlesbare Textzeilen.

Ein Blatt aus einem Stadtarchiv kann auf dem Bildschirm zugleich spektakulär nah und praktisch unzugänglich wirken. Die Tinte ist da, die Zeilen sind da, manchmal sogar jede Falte des Papiers. Und trotzdem bleibt der Inhalt stumm, weil Kurrent, individuelle Schreibgewohnheiten, Tabellen, Randnotizen und Abkürzungen nicht einfach "gelesen" werden können. Genau an dieser Stelle setzt Handschriftenerkennung mit KI an: Sie verwandelt Bilder historischer Dokumente in Text, der durchsuchbar, vergleichbar und weiterverarbeitbar wird. Nur ist das keine magische Entzifferung, sondern ein mehrstufiger, fehleranfälliger Arbeitsprozess.

Kernaussagen

Handschriftenerkennung mit KI kann historische Dokumente heute oft erstaunlich gut transkribieren, funktioniert aber nur selten als universelle Ein-Klick-Lösung.
Der entscheidende Engpass liegt nicht allein im Modell, sondern im gesamten Workflow aus Scanqualität, Layout-Erkennung, passendem Training und menschlicher Korrektur.
Neuere neuronale und transformerbasierte Verfahren machen HTR robuster, bleiben für Spezialbestände aber auf gute Ground-Truth-Daten und domänenspezifische Anpassung angewiesen.
Transkriptionsfehler sind in Archiven und Geisteswissenschaften nicht bloß Schönheitsfehler: Sie verschieben Suche, Edition, Namenerkennung und damit oft auch historische Befunde.

Warum historische Handschrift keine normale OCR-Aufgabe ist

Bei gedruckten Dokumenten kann klassische OCR oft davon ausgehen, dass Buchstabenformen relativ stabil, Zeilen sauber gesetzt und Wörter voneinander getrennt sind. Historische Handschriften sabotieren fast jede dieser Erwartungen. Zeilen steigen an oder brechen ab, Buchstaben werden verbunden, Abkürzungszeichen ersetzen ganze Silben, Tintenschäden überlagern Zeichen, und selbst dieselbe Person schreibt nach zehn Seiten nicht mehr ganz gleich.

Die Forschung zu historischen HTR-Benchmarks beschreibt genau diese Lage: Nicht einzelne Buchstaben stehen im Zentrum, sondern schwer segmentierbare, verrauschte Sequenzen aus Bildinformation und Sprachmuster. Der Überblick von Romero et al. zu Benchmarks historischer HTR macht deutlich, warum dafür nicht nur Bilderkennung, sondern auch Sprachmodelle, Trainingsdaten und reproduzierbare Vergleichsdaten gebraucht werden.

Hinzu kommt, dass Archive keine normierten Büroumgebungen sind. Ein Kirchenbuch, ein Notariatsregister, ein Briefkonvolut und ein kommentiertes Manuskript sehen nicht bloß anders aus, sie erzeugen auch verschiedene Fehlerarten. Wer sich für die größere quellenkritische Einordnung solcher Digitalisierungsschichten interessiert, findet im Wissenschaftswelle-Beitrag KI in der Geschichtsforschung: Der Scan ist noch keine Quelle bereits die passende Grundfrage.

Was die KI tatsächlich macht

Wenn von Handschriftenerkennung mit KI die Rede ist, klingt das oft so, als würde ein Modell einfach auf eine Seite schauen und sie lesen. In der Praxis besteht die Leistung aus mehreren Schritten, und jeder davon kann den Rest sabotieren.

Zuerst braucht es gute Bilder. Schon der Workflow-Hinweis von Transkribus zur Digitalisierung von Archivmaterial betont, wie stark Beleuchtung, Orientierung, Auflösung und visuelles Rauschen das Ergebnis prägen.
Danach muss das System erkennen, wo auf der Seite überhaupt Text liegt. Bei Fließtext ist das schon schwierig genug, bei Tabellen, Marginalien oder mehrspaltigen Seiten wird Layout-Erkennung schnell zum Flaschenhals.
Erst dann kommt das eigentliche Transkriptionsmodell ins Spiel. Es braucht entweder ein schon passendes öffentliches Modell oder Trainingsdaten, die genau zu Schrift, Sprache und Material passen.
Am Ende steht keine "endgültige Lesung", sondern eine Textschicht, die korrigiert, exportiert, durchsucht und oft erneut trainiert wird.

Merksatz: Eine HTR-Transkription ist keine historische Quelle, sondern eine überprüfbare Textschicht über einer Quelle.

Gerade der zweite Schritt wird unterschätzt. Transkribus weist selbst darauf hin, dass fehlerhafte Layout-Erkennung direkt zu fehlerhafter Transkription führt. Wenn eine Tabellenzelle als Zeilenfortsetzung gelesen wird oder Randkommentare in den Haupttext rutschen, produziert das Modell nicht einfach ein paar Tippfehler, sondern eine falsche Struktur des Dokuments.

Warum neuronale Modelle so viel verändert haben

Der eigentliche Fortschritt der letzten Jahre liegt darin, dass Handschrift nicht mehr nur als Ansammlung isolierter Zeichen behandelt wird. Ältere starke Systeme arbeiteten oft mit Convolutional-Recurrent-Ansätzen plus Sprachmodellen. Sie waren und sind leistungsfähig, aber stark von sauberer Pipeline-Arbeit und passender Datenlage abhängig. Genau das zeigen die historischen Benchmarks, in denen Datenknappheit bis heute als strukturelles Problem auftaucht.

Mit neueren End-to-End-Ansätzen verschiebt sich das Gewicht. Das TrOCR-Paper von Cui et al. beschreibt, wie vortrainierte Bild-Transformer und Text-Transformer kombiniert werden, sodass Bildverständnis und Textgenerierung enger zusammenrücken. Für historische Materialien heißt das nicht automatisch: Problem gelöst. Es heißt eher: Die Modelle können Kontext besser nutzen, verwaschene oder uneinheitliche Handschrift öfter plausibel ergänzen und mit Vortraining robuster starten als viele ältere Spezialpipelines.

Aber auch moderne Modelle bleiben abhängig von gutem Material. Transkribus empfiehlt für eigene Modelle mehrere tausend manuell transkribierte Wörter, bevor eine spezialisierte Handschrift wirklich zuverlässig lesbar wird. eScriptorium formuliert denselben Punkt offener: Hohe Genauigkeit bei historischen Quellen entsteht dort, wo Human-in-the-loop-Training direkt in den Workflow eingebaut ist. Die Maschine wird also nicht von der Korrektur befreit, sondern systematisch durch Korrektur besser.

Wo die Fehler wirklich weh tun

Die populäre Erwartung lautet oft: Ein paar Prozent Fehlerquote sind für Forschung schon verkraftbar. Das stimmt nur, wenn man nicht genauer hinschaut. In historischen Beständen sitzen die kritischen Informationen häufig genau in Eigennamen, Datierungen, Berufsbezeichnungen, Ortsvarianten oder Abkürzungsformen. Ein einzelner falsch gelesener Familienname kann aus einem Registereintrag einen unauffindbaren Eintrag machen. Gerade in Personenstands- oder Notariatsregistern reicht oft ein Buchstabe, damit ein Dokument im Volltextindex verschwindet, obwohl das Digitalisat längst online steht.

Wie folgenreich solche Fehler für nachgelagerte Analysen sind, zeigt die Studie von Boros et al. zu Digitalisierungsfehlern in historischer Entitätenerkennung. Ihr Punkt ist wichtig: OCR- oder HTR-Fehler bleiben nicht im Transkript stehen, sondern propagieren in Named-Entity-Recognition, Suche und Korpusanalyse weiter. Mit anderen Worten: Wer historische Texte maschinell auswertet, arbeitet immer auch mit den Fehlerprofilen der vorausgehenden Transkription.

Das ist der Grund, warum Archive und Editionsprojekte nicht bloß auf "gute Genauigkeit" schielen, sondern auf kontrollierbare Genauigkeit. Wer etwa Varianten, Kürzungen oder editorische Entscheidungen nachvollziehbar halten will, bewegt sich in einem Feld, das näher an Zwischen Pergament und Pixel: Wie Textkritik heilige Schriften rekonstruiert liegt als an einer gewöhnlichen Texterkennung für Rechnungen oder Formulare.

Neue Werkzeuge verändern die Arbeitsteilung

Interessant ist deshalb weniger die Frage, welches Tool "gewinnt", sondern welche Art von Arbeitskette sich etabliert. Transkribus steht für eine stark ausgebaute Plattformlogik mit öffentlichen und eigenen Modellen, Layout-Erkennung, Tabellenunterstützung und archivischen Praxisbeispielen. eScriptorium betont stärker den offenen, kollaborativen Workflow für komplexe Manuskripte und unterschiedliche Schriftsysteme, von lateinischen bis zu hebräischen oder arabischen Beständen mitsamt Marginalien und unruhigen Layouts. OCR4all ist wiederum wichtig, weil es die Schwelle für nichttechnische Nutzer senken will und historisches Material nicht als Ausnahmefall behandelt.

Noch wichtiger als einzelne Plattformen ist die Infrastruktur um die Modelle herum. HTR-United katalogisiert dokumentierte Ground-Truth-Datensätze, also genau jene Trainings- und Vergleichsgrundlagen, die kleine Projekte sonst mühsam neu aufbauen müssten. Das klingt unspektakulär, ist aber für Archive und Digital Humanities oft entscheidender als ein neues Schlagwortmodell: Ohne saubere Datensätze bleibt jede "smarte" Transkription lokal, schwer überprüfbar und kaum übertragbar.

Darin liegt auch der eigentliche Produktivitätsgewinn. Handschriftenerkennung mit KI spart nicht einfach Zeit beim Abtippen. Sie verändert, welche Bestände überhaupt in Reichweite geraten. So wie im Beitrag Das Jahrhundert im Schrank: Wie Fotoplattenarchive den Himmel neu vermessen alte Materialien durch Digitalisierung plötzlich neue Forschung zulassen, werden auch handschriftliche Archive erst dann analytisch interessant, wenn sie wenigstens teilweise durchsuchbar und strukturierbar werden.

Was die Technik nicht ersetzt

Je besser die Modelle werden, desto größer ist die Versuchung, die Transkription mit Verständnis zu verwechseln. Das wäre ein Kategorienfehler. Ein Modell kann Zeilen, Wörter und manchmal sogar Tabellen beeindruckend gut lesen, ohne zu wissen, ob eine Abkürzung im Verwaltungsdeutsch des 18. Jahrhunderts etwas anderes meint als im juristischen Formular des 19. Jahrhunderts. Es kann Schreibvarianten angleichen, ohne zu entscheiden, ob diese Vereinheitlichung editorisch überhaupt wünschenswert ist.

Gerade deshalb sollte man Handschriftenerkennung mit KI nicht als Ende der Paläografie begreifen, sondern als Verschiebung der wertvollsten menschlichen Arbeit. Weniger Zeit fließt ins reine Entziffern immer gleicher Muster, mehr in die Entscheidung, welche Lesung plausibel ist, welche Struktur ein Dokument tatsächlich hat und welche Unsicherheiten sichtbar bleiben müssen. Das passt auch zu der breiteren Mediengeschichte, die wir in Die zweite Geburt des Dokuments beschrieben haben: Neue Techniken machen Dokumente nicht einfach neutral verfügbar, sondern verändern ihre soziale Nutzbarkeit.

Was am Ende als Fortschritt zählt

Die stärkste Formulierung wäre also nicht: KI kann alte Handschriften endlich lesen. Treffender ist: KI kann aus historischen Handschriften heute oft eine belastbare erste Textschicht erzeugen, die Archive, Editionen und Forschung schneller arbeitsfähig macht. Das ist viel. Aber es ist etwas anderes als automatisches Verstehen.

Der Fortschritt besteht in besseren Modellen, ja. Noch mehr besteht er in reiferen Workflows: bessere Scans, sauberere Layout-Erkennung, kontrollierte Korrekturschleifen, offene Trainingsdaten und Werkzeuge, die Unsicherheit nicht verstecken. Erst dadurch wird aus einem schwer lesbaren Blatt ein Dokument, mit dem sich tatsächlich arbeiten lässt.

Autorenprofil

Benjamin Metzig ist Gründer, Autor und redaktionell Verantwortlicher von Wissenschaftswelle.de. Wissenschaftswelle ist ein persönlich geführtes redaktionelles Wissensprojekt, das komplexe Themen aus unterschiedlichen Fachbereichen sorgfältig recherchiert, strukturiert und verständlich aufbereitet. Moderne Recherche-, Analyse- und KI-Werkzeuge dienen dabei als Unterstützung, während Auswahl, Einordnung, Ton, Quellenbewertung und Veröffentlichung redaktionell bei Benjamin Metzig verantwortet bleiben. Mehr zum Profil: Autorenprofil von Benjamin Metzig.

Instagram Facebook