Bildvorverarbeitung für OCR
Eine 6-Schritt-Pipeline für bessere OCR-Erkennung
Der Unterschied zwischen brauchbarer OCR-Ausgabe und Ausgabe, die Sie neu abtippen müssen, hat oft nichts mit der Engine selbst zu tun. Es liegt daran, was mit dem Bild passiert, bevor die OCR-Engine es überhaupt sieht. Ein Smartphone-Foto einer Rechnung, ein gefaxtes Vertragsdokument mit 150 DPI, ein zerknitterter Kassenbon – das sind die realen Eingaben, die die Vorverarbeitung beheben soll. Eine gut durchdachte sechsstufige Pipeline kann ein verrauschtes, schiefes, kontrastarmes Bild so lesbar für die Engine machen wie eine saubere gedruckte Seite.
Warum die Vorverarbeitung wichtiger ist als die OCR-Engine
Traditionelle OCR-Engines — Tesseract, ABBYY FineReader, Google Cloud Vision — wurden für saubere, kontrastreiche Scans von Flachbettscannern bei 300 DPI entwickelt. Reale Bilder sehen ganz anders aus. Ein Handyfoto einer Rechnung hat Schatten von der Hand des Fotografen, eine verzerrte Perspektive und Linsenverzerrungen. Ein gefaxtes Fax einer Bestellung kommt mit 200 DPI und Moiré-Mustern an. Ein zerknitterter Kassenbon hat Knickfalten, die künstliche Kanten erzeugen, und Teile des Textes liegen im Schatten, während andere überbelichtet sind.
Die Vorverarbeitung überbrückt diese Lücke. Benchmarks des Document Image Binarization Contest (DIBCO) zeigen durchgängig, dass die Wahl der Vorverarbeitungstechnik die Zeichengenauigkeit bei derselben OCR-Engine und demselben Dokument um 15–40 Prozentpunkte verschieben kann. Bei beschädigten Dokumenten — vergilbtem Papier, blassen Durchschlägen, Thermoquittungen — wird die Lücke noch größer.
Die sechs folgenden Schritte bilden eine vollständige Vorverarbeitungspipeline. Sie sind nach Abhängigkeiten geordnet: Jeder Schritt setzt den vorherigen voraus. Sie können Schritte überspringen, wenn Ihre Quellbilder bereits sauber sind, aber die Reihenfolge sollte nicht geändert werden.
Schritt 1: Graustufenkonvertierung — Farbe entfernen, ohne Signal zu verlieren
Ein Farbbild speichert drei Kanäle — Rot, Grün und Blau — jeder mit eigenen Beleuchtungseigenschaften. Bei gemischter Beleuchtung kann ein Kanal überbelichtet sein, während ein anderer Details behält. Die unabhängige Verarbeitung aller drei Kanäle vervielfacht die Rechenlast und führt kanalspezifisches Rauschen ein, das OCR nicht benötigt. Die Graustufenkonvertierung reduziert sie auf einen einzigen Luminanzkanal mittels Luminositätsgewichtung (Y = 0,299R + 0,587G + 0,114B), bewahrt die Kontrastinformationen, auf die OCR angewiesen ist, und eliminiert farbbasiertes Rauschen. Das Ergebnis ist ein einkanaliges Bild, in dem nur die Helligkeit zählt, bereit für die Rauschunterdrückung.
Schritt 2: Rauschentfernung — Gauß- oder Medianfilter?
Rauschen entsteht durch verschiedene Quellen: Sensorrauschen in Handykameras, JPEG-Komprimierungsartefakte, Rasterung in Druckerzeugnissen und Staub auf dem Scannerglas. Zwei Filteransätze dominieren, jeder für unterschiedliche Rauschtypen geeignet.
Gaußscher Weichzeichner mittelt jedes Pixel mit seinen Nachbarn und ist effektiv gegen die normalverteilten Helligkeitsschwankungen typischer Kamerasensoren. Der Nachteil ist die Kantenweichzeichnung — dünne Striche in einer 9-Punkt-Schrift werden für die OCR schwerer trennbar. Ein Kernel von 3×3 oder 5×5 ist meist ausreichend.
Medianfilter ersetzt jedes Pixel durch den Median seiner Nachbarschaft und ist dadurch deutlich effektiver gegen Salz-und-Pfeffer-Rauschen — die verstreuten weißen und schwarzen Pixel, die in gescannten oder gefaxten Dokumenten üblich sind. Es entfernt isolierte verrauschte Pixel, während Kanten nahezu intakt bleiben. Die Standard-Fenstergröße ist 3×3; bei stark verrauschten Scans 5×5.
Die Faustregel: Bei verstreuten Spritzern den Medianfilter verwenden. Bei allgemeiner Körnigkeit den Gaußschen Weichzeichner. Beide sollten sparsam eingesetzt werden — jeder Filter entfernt neben dem Rauschen auch echte Bildinhalte.
Schritt 3: Binarisierung — Der Schritt mit der größten Wirkung
Die Binarisierung wandelt ein Graustufenbild in ein reines Schwarz-Weiß-Bild um: Jedes Pixel ist entweder Tinte (schwarz) oder Papier (weiß). Dieser Schritt birgt die größten Genauigkeitsgewinne — und die größten Genauigkeitsverluste. Die Ergebnisse der DIBCO-Wettbewerbe der letzten zehn Jahre zeigen, dass die Lücke zwischen der besten Binarisierungsmethode und einem einfachen globalen Schwellwert bei beeinträchtigten Dokumenten durchschnittlich 30–40 Prozentpunkte beträgt. Die Wahl der falschen Binarisierungsmethode ist der häufigste einzelne Vorverarbeitungsfehler.
Otsus Methode ist die Standard-Binarisierung in den meisten OCR-Bibliotheken. Sie berechnet einen einzigen globalen Schwellwert, indem sie die Varianz zwischen den schwarzen und weißen Pixelklassen maximiert. Bei einem sauberen, gleichmäßig ausgeleuchteten Scan — einer weißen Seite mit schwarzem Text unter gleichmäßigem Licht — liefert Otsu in einem Durchgang eine nahezu perfekte Binarisierung. Das Problem ist, dass die meisten realen Dokumente nicht gleichmäßig ausgeleuchtet sind. Eine auf einem Schreibtisch fotografierte Seite weist einen Helligkeitsverlauf von der hellen Fensterseite zur Schattenseite auf. Otsu wählt einen Schwellwert für das gesamte Bild, was dazu führt, dass der Text im Schatten im Hintergrund verschwindet, während der Text auf der hellen Seite überbelichtet wird.
Adaptive Schwellwertbildung löst dies, indem sie für jedes Pixel einen lokalen Schwellwert basierend auf seiner Umgebung berechnet — typischerweise in Fenstern von 15×15 bis 51×51 Pixeln. Jede Region erhält ihren eigenen Schwellwert, sodass ein Dokument, das zur Hälfte im Schatten und zur Hälfte im Sonnenlicht liegt, auf der gesamten Seite lesbaren Text ergibt. Sauvolas Methode, eine Verfeinerung der adaptiven Schwellwertbildung, fügt einen Bias-Term hinzu, der die Leistung bei variierenden Strichbreiten verbessert — üblich bei Durchschlägen und historischen Dokumenten.
Der Nachteil sind Geschwindigkeit und Parameterempfindlichkeit. Die adaptive Schwellwertbildung ist 5–10× langsamer als Otsu, und die Fenstergröße beeinflusst das Ergebnis drastisch: Zu klein (unter 11×11) führt dazu, dass große Zeichen als Hintergrund behandelt werden; zu groß (über 75×75) nähert sie sich Otsus Verhalten an. Ein guter Ausgangspunkt ist eine Fenstergröße von etwa 1/20 der Bildbreite.
Schritt 4: Entzerren — Korrektur von Drehungen, bevor Textzeilen falsch gelesen werden
Schräglage — die Drehung eines Dokumentbildes relativ zur Horizontalen — ist bei mit Kameras aufgenommenen Dokumenten nahezu allgegenwärtig und auch bei gescannten häufig. Selbst eine geringe Schräglage verschlechtert die OCR-Genauigkeit überproportional, da die Segmentierungsalgorithmen der Engine horizontale Grundlinien voraussetzen. Veröffentlichte Forschung im Pattern Recognition Journal hat den Effekt genau gemessen: Bei 5° sinkt die Genauigkeit auf Zeichenebene um 15–20 %. Bei 10° übersteigt die Fehlerrate 40 %, da Zeilen nicht mehr mit ihren Zeilenbegrenzungen übereinstimmen. Bei 15° — leicht erzeugt durch das Fotografieren eines Dokuments aus einem Winkel — geben die meisten OCR-Engines Text als einen einzigen zusammenhängenden Zeichenstrom ohne Zeilenumbrüche aus.
Die Standardmethode zur Entzerrung verwendet die Hough-Transformation, die gerade Linien (Textgrundlinien) erkennt und deren dominierenden Winkel berechnet, dann das Bild um den negativen dieses Winkels dreht. Eine einfachere Alternative berechnet das Projektionsprofil — die Summe der schwarzen Pixel pro Zeile, die ihren Höchstwert erreicht, wenn der Text horizontal ist. Beide Methoden konvergieren bei sauberen Dokumenten innerhalb von 0,1°. Bei verrauschten Bildern ist die Hough-Transformation robuster, da sie Ausreißerlinien verwerfen und sich auf die dominierende Textrichtung konzentrieren kann.
Schritt 5: Randentfernung — Verhindern, dass Randartefakte die Layoutanalyse stören
Gescannte Dokumente und mit dem Handy aufgenommene Bilder enthalten fast immer visuelle Inhalte außerhalb des Dokuments selbst — dunkle Scannerdeckelränder, eine auf einem Schreibtisch fotografierte Seite, Faxkopf-Zeitstempel. Diese Elemente beeinträchtigen den Schritt der Layoutanalyse, da OCR-Algorithmen Seitenbereiche durch Identifizieren zusammenhängender Komponenten erkennen. Ein dicker schwarzer Rand erzeugt eine zusammenhängende Komponente, die die gesamte Bildbreite umspannt, was der Algorithmus als Seitenbegrenzung interpretiert — was dazu führt, dass er in den eigentlichen Dokumentinhalt hinein beschneidet oder nahen Kopfzeilentext der falschen Lesereihenfolge zuordnet. Die Dokumentdaten, Seitenzahlen und Lieferantennamen an den Rändern fallen typischerweise zuerst weg.
Die automatisierte Randentfernung verwendet Konturerkennung, um die äußerste rechteckige Begrenzung des Dokumentinhalts zu finden und darauf zuzuschneiden. Der Algorithmus tastet von jeder Kante nach innen ab und sucht nach dem Übergang von dunklem Rand zu hellem Papier. Der Zuschnitt sollte konservativ sein: zu aggressives Beschneiden entfernt Randtext, während das Belassen eines dünnen (2–5 Pixel) Randes die nachgelagerte Verarbeitung nicht beeinträchtigt.
Schritt 6: Auflösungsverbesserung – Wann mehr Pixel wirklich helfen
Die OCR-Genauigkeit hängt nachweislich von der Bildauflösung ab. Unter 200 DPI verpixeln Zeichenkanten so stark, dass ähnliche Glyphen nicht mehr unterscheidbar sind – "O" vs. Null, Klein-"l" vs. Groß-"I". Der Standardwert von 300 DPI bietet ausreichend Details für 8–12-Punkt-Schriften bei handhabbaren Dateigrößen. Bei 600 DPI verbessert sich die Genauigkeit nur um 2–5 %, während die Dateigröße sich vervierfacht.
Die Herausforderung: Eingabebilder sind nicht immer kontrollierbar. Ein Handyfoto einer Quittung kann eine effektive Auflösung von 150 DPI haben; ein Fax liegt fest bei 200 DPI. In diesen Fällen können Super-Resolution-Techniken – neuronale Netze zur Rekonstruktion hochauflösender Details – verlorene Informationen teilweise wiederherstellen und unter 200 DPI einen bescheidenen, aber messbaren Gewinn von 5–8 Prozentpunkten erzielen. Traditionelles bikubisches Hochskalieren bringt nicht denselben Vorteil; es erzeugt glatte Kanten, aber keine echten Details. Nur Super-Resolution – trainiert auf Millionen von Dokumentbildern – kann scharfe Zeichenkanten aus unscharfen Bereichen rekonstruieren.
Wann Sie die Vorverarbeitung überspringen können
Die obige Vorverarbeitungspipeline wurde für traditionelle OCR-Engines entwickelt – Tesseract, ABBYY, Google Cloud Vision – die zeichenweise arbeiten. Diese Engines benötigen saubere, kontrastreiche Eingaben, da ihre Architektur kein Kontextbewusstsein besitzt. Ein fehlendes Zeichensegment durch Rauschen ist einfach verloren.
Moderne VLM-basierte OCR (Vision Large Language Model) – die Architektur von ImageToTable.ai – funktioniert anders. Statt Zeichen einzeln zu erkennen, liest ein VLM das gesamte Dokumentbild als visuelle Szene und extrahiert Daten, indem es die Bedeutung jeder Region versteht. Trainiert auf Millionen realer Dokumentbilder – Handyfotos, zerknitterte Quittungen, schiefe Scans – sind die Arten von Beeinträchtigungen, die die Vorverarbeitung behebt, bereits in den Trainingsdaten enthalten. Ein Dokument, das mit 15° Schräglage unter gemischter Beleuchtung fotografiert wurde, ist für das Modell kein Sonderfall; es ist statistisch nicht von Tausenden Trainingsbeispielen zu unterscheiden.
Das bedeutet nicht, dass Vorverarbeitung überflüssig ist. Bei extrem degradierten Bildern – einer vollständig braun verfärbten Thermoquittung, einer Fünftgenerationen-Kopie – profitiert selbst ein VLM von adaptiver Schwellwertbildung oder Kontrastverstärkung. Aber für den mittleren Bereich realer Dokumentqualität, der 90 % des täglichen Gebrauchs ausmacht, kann ein modernes VLM-basiertes Tool die gesamte Vorverarbeitungspipeline überspringen und direkt genaue Extraktionen liefern.
Für einen tieferen Vergleich der beiden Ansätze siehe OCR vs. KI-Extraktion: Wann Vorverarbeitung nötig ist und unseren Leitfaden zur Verbesserung der OCR-Genauigkeit mit modernen Extraktionstools.
Fehlerbehebung bei häufigen Vorverarbeitungsproblemen
Ihr Schwellwert ist zu aggressiv. Wechseln Sie von Otsu zu adaptiver Schwellwertbildung mit einer Fenstergröße von 1/20 der Bildbreite. Bei tiefen Schatten wenden Sie zuerst eine kontrastbegrenzte adaptive Histogramm-Egalisierung (CLAHE) an.
Ihre Kernelgröße ist zu groß. Reduzieren Sie auf einen 3×3-Kernel oder wechseln Sie von Gauß- zu Median-Filterung, die dünne Kanten besser erhält. Bei Kleingedrucktem überspringen Sie die Rauschentfernung ganz, wenn das Bild bereits sauber ist.
Die Hough-Transformation hat wahrscheinlich eine falsche dominante Linie erkannt – eine Rahmenkante oder Tabellenlinie. Entfernen Sie den Rand vor dem Deskew oder maskieren Sie die oberen und unteren 5 % des Bildes. Erhöhen Sie den Hough-Schwellwert, sodass nur nahezu vollbreite Linien als Grundlinien registriert werden.
Adaptive Schwellwertbildung und Super-Resolution sind rechenintensiv. Für große Stapel sollten Sie ein VLM-basiertes Extraktionstool in Betracht ziehen, das diese Transformationen intern in einem einzigen Inferenzdurchlauf pro Seite durchführt.
Häufig gestellte Fragen
Ist eine Vorverarbeitung für jedes Dokument nötig?
Nein. Ein sauberer 300-DPI-Scan von schwarzem Text auf weißem Papier benötigt keine Vorverarbeitung. Die Pipeline bringt umso mehr Mehrwert, je weiter die Eingabe von diesem Ideal abweicht: Handyfotos, Faxe, Thermoquittungen und verblasste Originale profitieren am meisten. Bei einem VLM-basierten Tool liegt die Schwelle viel niedriger – das Modell verarbeitet leichte Schräglage, ungleichmäßige Beleuchtung und Rauschen intern.
Wirkt sich die Vorverarbeitung bei Handschrift anders aus als bei Druckschrift?
Ja. Druckschrift hat gleichmäßige Strichbreiten und Abstände, daher funktioniert die Standard-Pipeline gut. Handschrift hat variable Striche, überlappende Zeichen und ungleichmäßige Abstände. Aggressive Binarisierung (insbesondere Otsu) verschmilzt kursiv geschriebene Striche zu Klecksen. Für handschriftliche Dokumente verwenden Sie ein größeres adaptives Schwellwertfenster (51×51 oder höher) und eine sanftere Rauschunterdrückung. Einige VLM-basierte Tools überspringen die Binarisierung bei Handschrift ganz und verarbeiten das Graustufenbild direkt. In unserem Leitfaden Warum OCR mit Handschrift kämpft finden Sie eine detailliertere Aufschlüsselung.
Welche DPI sollte ich beim Scannen von Dokumenten verwenden?
300 DPI ist der Standard für die meisten Geschäftsdokumente – genug Details für 8–12-Punkt-Schrift bei etwa 25 MB pro Farbseite. 200 DPI reichen für Dokumente mit großer Schrift (14pt+). 600 DPI sind für OCR selten nötig; der Genauigkeitsgewinn gegenüber 300 DPI beträgt im Durchschnitt nur 2–5 %, während die Dateigröße vervierfacht wird. Eine Ausnahme sind Dokumente mit extrem kleinen Schriftarten (6–8-Punkt-Fußnoten, Kleingedrucktes).
Kann die Vorverarbeitung ein unscharfes Handyfoto eines Dokuments reparieren?
Teilweise. Leichte Bewegungsunschärfe (unter 3 Pixel) kann mit einem Wiener- oder Richardson-Lucy-Entfaltungsfilter (verfügbar in OpenCV und scikit-image) korrigiert werden. Mittlere Unschärfe (3–10 Pixel) erfordert ein neuronales Entschärfungsmodell. Starke Defokussierung ist in der Regel nicht behebbar – die hochfrequenten Informationen (Kanten der Zeichenstriche) wurden vom Sensor nie erfasst. Das erneute Aufnehmen des Fotos mit ruhiger Kamera und flachem Dokument ist die einzig zuverlässige Lösung.
Sollte ich PDF-Seiten vor der Vorverarbeitung in Bilder konvertieren?
Das hängt vom PDF-Typ ab. Digital erstellte PDFs enthalten auswählbaren Text und benötigen keine OCR. Gescannte PDFs sind Bildsammlungen in einem PDF-Container – rendern Sie jede Seite mit Popplers pdftoppm oder Pythons pdf2image als PNG mit 300 DPI und wenden Sie dann die Pipeline an. Eine vollständige Arbeitsablaufbeschreibung finden Sie in unserem Leitfaden zur Datenextraktion aus gescannten PDFs.
Wie erkenne ich, welcher Vorverarbeitungsschritt Probleme verursacht?
Speichern Sie die Ausgabe jedes Schritts als separate Bilddatei. Wenn die OCR-Ausgabe unbrauchbar ist, beginnen Sie mit dem binarisierten Bild – dieser Schritt hat die größte Genauigkeitsschwankung. Wenn die Binarisierung sauber aussieht, die Ausgabe aber dennoch falsch ist, vergleichen Sie das entzerrte Bild mit der Roh-Eingabe: Eine für das Auge unsichtbare Restneigung von 3° kann die Genauigkeit um 10 % senken. Jeder gespeicherte Zwischenschritt zeigt Ihnen genau, wo der Fehler eingeführt wurde.
Wenn die Pipeline nicht die Lösung ist
Die sechsstufige Pipeline ist der richtige Ansatz, wenn Sie die Eingabe kontrollieren – Sie wählen Scanner und DPI. In vielen realen Szenarien ist das jedoch nicht der Fall. Rechnungen kommen von Hunderten von Lieferanten in Formaten, die von digitalen PDFs bis zu Handyfotos reichen. Die Vorverarbeitungslast verlagert sich auf das Tool.
Ein VLM-basiertes Extraktionstool wie ImageToTable.ai – das mit benutzerdefinierter Spaltenextraktion Datenfelder anhand der semantischen Bedeutung statt anhand von Pixelkoordinaten lokalisiert – hat die Vorverarbeitungspipeline in seinen Inferenzprozess integriert. Sie laden das Dokument so hoch, wie es ist: schief, beschattet, mit niedriger Auflösung. Das Modell liest das Dokument als Ganzes und extrahiert strukturierte Daten in die von Ihnen definierten Spalten.
Das macht Vorverarbeitungswissen nicht überflüssig. Das Verständnis jedes Schritts hilft Ihnen zu diagnostizieren, warum ein Extraktionstool bei einem bestimmten Bild versagen könnte – und sagt Ihnen genau, was zu beheben ist. Eine Anleitung zur Diagnose von Extraktionsfehlern nach Dokumenttyp finden Sie unter Warum die OCR-Genauigkeit je nach Dokumenttyp unterschiedlich stark abfällt.
Testen Sie Ihr Extraktionstool mit demselben Dokument vor und nach der Anwendung der sechsstufigen Pipeline. Der Unterschied zeigt Ihnen genau, wie viel Vorverarbeitung Ihr Workflow benötigt.