So liest man eine OCR-Genauigkeitsangabe: 5 Fragen vor dem Kauf

Jede Woche liest jemand, der Dokumentextraktions-Tools evaluiert, die Angabe „99 % Genauigkeit“ eines Anbieters, meldet sich an, lädt seinen ersten Stapel echter Dokumente hoch – und stellt fest, dass die tatsächliche Genauigkeit eher bei 85 % liegt. Er wurde nicht durch eine Lüge getäuscht, sondern durch eine Zahl, die nie dafür gedacht war, die Frage zu beantworten, die er eigentlich stellte: „Funktioniert dieses Tool mit meinen Dokumenten?“ Die Kluft zwischen der vom Anbieter angegebenen Genauigkeit und der Leistung in der Praxis ist kein Zufall – sie ist das vorhersehbare Ergebnis der Art und Weise, wie Genauigkeitsangaben konstruiert werden. Und wenn man weiß, wonach man fragen muss, wird diese Kluft sichtbar, bevor man kauft.

Warum 99 % weniger aussagen, als Sie denken

Auf einer typischen Landingpage für ein Dokumentenextraktionstool steht vielleicht: „99,9 % OCR-Genauigkeit bei Rechnungen.“ Die Zahl steht neben einem Häkchen-Symbol. Sieht aus wie ein Beleg. Sieht aus wie ein technischer Wert. Aber was sie nicht verrät: ob diese 99,9 % an perfekten Scans einer einzigen Vorlage gemessen wurden, ob sie sich auf Zeichen oder Felder bezieht und ob der Testsatz die Dokumententypen, die Sie tatsächlich verarbeiten, ausgeschlossen hat.

Unabhängige Benchmarks wie der OCR-Benchmark von AIMultiple 2026 zeigen die Diskrepanz: Führende API-Dienste erzielen bei sauberen Druckschriften über 99 %, fallen aber bei Handschrift je nach Engine auf etwa 70–95 % – eine Spanne, die breit genug ist, dass zwei Tools, die beide 99 % Gesamtgenauigkeit angeben, bei Ihren tatsächlichen Dokumenten um 25 Prozentpunkte auseinanderliegen können. Die Schlagzahl verrät nicht, in welches Lager ein Anbieter fällt, denn die Schlagzahl war nie dafür gedacht.

Die folgenden fünf Fragen verwandeln eine vage Genauigkeitsbehauptung in eine konkrete Bewertung. Stellen Sie sie vor Ihrer Evaluierung, und Sie werden sehen, welche Anbieter wirklich getestet haben – und welche hoffen, dass Sie nicht nachfragen.

F1: Auf welchen Dokumenten getestet?

Genauigkeit ist keine Eigenschaft eines Tools. Sie ist eine Eigenschaft eines Tools für einen bestimmten Dokumentensatz. Ändert sich der Satz, ändert sich die Zahl – manchmal drastisch. Ein Anbieter, der auf einheitlichen, hochauflösenden, einsprachigen Rechnungen testet, wird eine höhere Genauigkeit angeben als einer, der auf einem gemischten Korpus aus handschriftlichen Formularen, verblassten Kopien und Handy-Kassenbons testet. Beide Zahlen können wahr sein. Nur eine sagt voraus, was Sie erleben werden.

Fragen Sie nach der genauen Zusammensetzung des Testsatzes: wie viele Dokumente, aus wie vielen Quellen, in wie vielen Sprachen, in welchem Auflösungsbereich. Kann der Anbieter diese Aufschlüsselung nicht liefern, ist die Genauigkeitsangabe ohne Anker. Sie ist eine Behauptung über einen unbekannten Datensatz, angewendet auf ein unbekanntes Dokument – also nicht brauchbar.

Dies ist auch der richtige Moment zu prüfen, ob das Tool auf Vorlagenabgleich oder zonaler OCR basiert, was bei variierenden Layouts versagt. Wie wir in Was OCR-Genauigkeit wirklich bedeutet behandeln, können vorlagenbasierte Systeme innerhalb ihres trainierten Formats gut funktionieren und außerhalb völlig versagen – etwas, das eine einzelne „99 %“-Zahl nie preisgeben wird.

F2: Auf welcher Ebene — Zeichen, Wort oder Feld?

Die Genauigkeit kann auf drei Ebenen gemessen werden, und Anbieter neigen dazu, diejenige anzugeben, die die höchste Zahl liefert.

Zeichengenauigkeit (CER) zählt, wie viele einzelne Zeichen die Engine korrekt erfasst. Enthält ein Dokument 1.000 Zeichen und 990 sind richtig, ergibt das 99 % CER. Das klingt beeindruckend. Es ist jedoch die am wenigsten nützliche Kennzahl für reale Aufgaben, da ein einziges falsches Zeichen den Wert eines gesamten Feldes zerstören kann. Ein Rechnungsbetrag von 1.429,50 €, den die OCR als 1,429,50 € liest, ist zu 7 von 8 Zeichen korrekt – 87,5 % Zeichengenauigkeit – aber das Feld ist völlig falsch. Wenn Ihre Kreditorenbuchhaltung diesen Betrag zahlt, verursacht der Fehler Kosten, egal wie sauber die restlichen Zeichen waren.

Feldgenauigkeit (auch semantische oder Exakt-Treffer-Genauigkeit genannt) misst, ob jeder vollständige Datenpunkt – Rechnungsnummer, Fälligkeitsdatum, Positionsbetrag – perfekt extrahiert wird. Ein Feld ist entweder richtig oder falsch. Eine einzige falsch gelesene Ziffer führt zum Fehlschlag des gesamten Feldes. Diese Kennzahl bildet reale Geschäftsergebnisse ab. Ein Benchmark aus dem Jahr 2026 von LlamaIndex's OCR-Genauigkeitsanalyse setzt die Feldgenauigkeitsschwelle für die vollautomatische Verarbeitung auf 99,9 % – also ein Fehler pro tausend Felder. Darunter ist eine manuelle Prüfung unvermeidbar.

Der Unterschied zwischen Zeichen- und Feldgenauigkeit ist nicht akademisch. Ein Tool, das 99 % Zeichengenauigkeit angibt, kann bei denselben Dokumenten eine Feldgenauigkeit unter 90 % liefern. Wie wir in Warum die OCR-Genauigkeit je nach Dokumententyp abnimmt untersuchen, vergrößert sich die Lücke bei komplexen Layouts weiter, wo eine einzige falsch interpretierte Tabellengrenze jedes Feld einer Zeile durcheinanderbringt.

Wenn ein Anbieter eine Genauigkeitszahl nennt, sollte Ihre erste Rückfrage sein: „Handelt es sich um Zeichen-, Wort- oder Feldgenauigkeit? Und können Sie die Feldgenauigkeit, aufgeschlüsselt nach Dokumententyp, offenlegen?“

F3: Was wurde aus dem Testsatz ausgeschlossen?

Das Methodendokument eines Anbieters – jenes, das er in seinem Blog oder Whitepaper veröffentlicht – enthält in den Ausschlusskriterien oft mehr Nutzwert als in den Genauigkeitszahlen. Was wurde bewusst weggelassen?

Typische Ausschlüsse sind: handschriftliche Texte, Dokumente mit Stempeln oder Logos, die Datenfelder überlappen, mehrseitige PDFs, minderwertige Handyfotos, nicht-englische Sprachen sowie Dokumente mit Randnotizen oder Korrekturen. Jeder Ausschluss schmälert die Aussagekraft der angegebenen Genauigkeit. Eine 99-%-Angabe, die Handschrift ausschließt, ist nutzlos, wenn Ihr Workflow handschriftliche Lieferscheine umfasst – und wie wir in OCR-Handschriftgenauigkeit: Die Realität ausführen, kann die Lücke zwischen Druck- und Handschriftgenauigkeit bei derselben Engine 20 Prozentpunkte oder mehr betragen. Ein Benchmark, der mehrsprachige Dokumente ausschließt, sagt nichts darüber aus, wie das Tool eine zweisprachige Rechnung verarbeitet.

Ein besonders wichtiger Ausschluss ist die Behandlung von gedrehten, verzerrten oder kontrastarmen Bildern. Herkömmliche OCR-Engines sind bei solchen Eingaben anfällig. Wie unser OCR-Softwarevergleich 2026 zeigt, wenden einige Tools Vorverarbeitungspipelines an, die die Bildqualität vor der Erkennung normalisieren – viele tun dies jedoch nicht, und ihre Genauigkeitsangaben setzen implizit voraus, dass die Eingabe bereits sauber ist.

Fragen Sie direkt: „Welche Dokumenttypen, Qualitätsstufen und Bedingungen wurden ausgeschlossen, und können Sie Genauigkeitsergebnisse speziell für die ausgeschlossenen Dokumenttypen nennen?“ Die Antwort verrät mehr als die Schlagzahl.

F4: Welche Fehlertoleranz wurde angewandt?

Auf Feldebene gibt es eine weitere, weniger offensichtliche Variable: Wie nah muss ein Wert am Ziel sein, um als „korrekt“ zu gelten? Manche Anbieter werten ein Feld als genau, wenn der extrahierte Wert nach geringfügiger Formatnormalisierung übereinstimmt – Entfernen von Satzzeichen, Standardisieren von Datumsformaten, Ignorieren führender Nullen. Das ist vertretbar. Andere gehen jedoch weiter: Sie werten ein numerisches Feld als korrekt, wenn es innerhalb eines bestimmten Prozentsatzes des Referenzwerts liegt, oder akzeptieren ein Feld, wenn eine beliebige Teilzeichenfolge übereinstimmt, oder behandeln eine ausgeschriebene Zahl als gleichwertig mit ihrer Ziffernform.

Diese Toleranzen sind nicht zwangsläufig falsch. Manche Anwendungen interessieren sich nicht dafür, ob ein Datum als TT.MM.JJJJ oder JJJJ-MM-TT formatiert ist. Das Problem ist, dass die Toleranz fast nie zusammen mit der Genauigkeitszahl offengelegt wird. Eine 98-%-Angabe auf Feldebene, die eine Abweichung von 5 % bei Geldbeträgen erlaubt, bedeutet etwas völlig anderes als eine 98-%-Angabe, die eine exakte zeichenweise Übereinstimmung in jedem Feld erfordert.

Dies ist besonders relevant für numerische Felder wie Summen, Mengen und Steuerbeträge – die Felder, bei denen Genauigkeit am wichtigsten ist und bei denen selbst eine falsche Ziffer einen Abstimmungsaufwand verursacht. Wenn ein Tool eine Feldgenauigkeit von 99 % bei Rechnungssummen angibt, aber 1.429,50 € und 1.429,00 € als Treffer wertet, weil die Differenz innerhalb eines 1-%-Toleranzbands liegt, dann liegt die tatsächliche Exakt-Treffer-Genauigkeit unter der beworbenen.

Fragen Sie: „Was genau gilt als korrekte Extraktion? Werden Näherungstreffer als korrekt gewertet? Ab welcher Schwelle?“

F5: Wie genau ist die Erkennung bei Dokumenten, die Ihren ähneln?

Das ist die einzige Frage, die am Ende zählt – und die meisten Käufer überspringen sie. Der Testsatz eines Anbieters enthält seine eigenen Dokumente: diejenigen, die er ausgewählt, kuratiert und optimiert hat. Ihre Dokumente enthalten Ihre Lieferanten, Ihre Kunden, Ihre Formate, Ihre Bildqualität, Ihre Feldtypen. Das sind grundverschiedene Dinge.

Hier ist ein praktischer Test: Stellen Sie eine Stichprobe von 20 bis 50 Dokumenten zusammen, die die Bandbreite an Qualität und Vielfalt abbilden, die Ihr Team tatsächlich vorfindet. Senden Sie denselben Satz an jeden Anbieter, den Sie evaluieren. Messen Sie die feldspezifische Genauigkeit bei den Feldern, die für Sie relevant sind – Rechnungsendbetrag, Bestellnummer, Positionsbeschreibungen – und nicht bei Text, der für Ihren Workflow unwichtig ist. Vergleichen Sie die Ergebnisse direkt nebeneinander.

Jeder Anbieter, der eine Blindauswertung anhand Ihrer Dokumente verweigert oder nur eine kuratierte Demo mit eigenen Beispielen anbietet, liefert Ihnen eine Zahl, die zum Beeindrucken optimiert wurde – nicht zur Vorhersage Ihres Ergebnisses. Ein Anbieter, der Ihren Testsatz begrüßt und offenlegt, wo sein Tool erfolgreich ist und wo es Schwierigkeiten hat, sagt Ihnen die Wahrheit.

Hier kommt es auch auf das zugrundeliegende Extraktionsparadigma an. Herkömmliche OCR-Tools und templatebasierte Systeme erfordern, dass Sie sie für jedes neue Format trainieren oder konfigurieren. Werkzeuge auf Basis von Vision-Language-Modellen wie ImageToTable.ai sind templatefrei und formatunabhängig: Sie lesen Dokumente, indem sie die Bedeutung von Feldern verstehen, nicht deren Position auf der Seite. Daher funktioniert eine einzige Konfiguration über alle Layouts hinweg. Die Genauigkeit, die Sie an Ihrer Teststichprobe messen, ist die Genauigkeit, die Sie in der Produktion erhalten – ohne formatspezifische Anpassungen.

FAQ

Was ist eine gute OCR-Genauigkeitszahl?

Eine gute Zahl hängt davon ab, was Sie extrahieren und was Sie als Fehler werten. Bei sauberen gedruckten Texten ist mit den meisten modernen Tools eine feldspezifische Genauigkeit von über 97 % erreichbar. Bei handschriftlichen Dokumenten sind mit den besten Engines 90–95 % feldspezifische Genauigkeit realistisch. Die ehrlichste Antwort: Testen Sie an Ihren eigenen Dokumenten und legen Sie Ihren eigenen Maßstab fest. Es gibt keine universelle „gute" Zahl.

Warum verwenden Anbieter zeichengenaue Genauigkeit, wenn diese irreführend ist?

Weil sie damit die höchstmögliche Zahl erzielen. Die zeichengenaue Genauigkeit profitiert von der Mittelwertbildung: Eine falsche Ziffer in einer 8-stelligen Summe plus ein falscher Buchstabe in einem 4-stelligen Währungscode ergeben 84 % Zeichengenauigkeit für diese beiden Felder. Wenn es Ihnen aber auf die korrekte Summe und den richtigen Währungscode ankommt, sind beide Felder zu 100 % falsch. Anbieter berichten die Kennzahl, die ihr Produkt am besten dastehen lässt – und der Druck der Käufer hat sie bisher nicht gezwungen, sich auf eine feldbezogene Berichterstattung zu einigen.

Kann ich unabhängigen OCR-Benchmarks vertrauen?

Ja, mit einer Einschränkung: Stellen Sie sicher, dass der Benchmark mit Ihren ähnlichen Dokumenttypen getestet wurde. Ein unabhängiger Benchmark wie AIMultiple's DeltOCR Bench oder das Open-Source-OCRBench bietet neutrale Vergleiche, aber die Dokumentenmischung muss nicht zu Ihrem Workflow passen. Nutzen Sie Benchmarks als Filter für die Vorauswahl und testen Sie dann die Finalisten mit Ihren eigenen Dokumenten.

Bedeutet eine höhere Genauigkeit immer ein besseres Tool?

Nein. Genauigkeit ist nur eine Dimension. Ein Tool, das 99,5 % Feldgenauigkeit bei Rechnungen erreicht, aber zehn Trainingsbeispiele pro Vorlage benötigt, bei einer Layoutänderung des Lieferanten versagt und laufende Wartung durch einen Integrationsingenieur erfordert, kann in der Praxis weniger wert sein als ein Tool, das ab Tag eins 97 % Genauigkeit bei jedem Format ohne Einrichtung liefert. Einrichtungsaufwand, Wartungskosten und die Breite der Dokumentenunterstützung sind oft wichtiger als die letzten zwei Prozentpunkte der Genauigkeit.

Nächste Schritte

Genauigkeitsangaben sind nicht nutzlos – sie sind nur unvollständig. Ein Anbieter, der alle fünf Fragen klar beantwortet, feldbezogene Ergebnisse nach Dokumenttyp teilt, Ausnahmen und Toleranzen offenlegt und Sie einlädt, mit Ihren eigenen Dokumenten zu testen, ist ein Anbieter, den man ernst nehmen sollte. Ein Anbieter, der ausweicht, auf eine Fallstudie verweist oder nur eine kuratierte Demo anbietet, sagt Ihnen ebenfalls etwas – hören Sie darauf.

Nehmen Sie sich die nächste Stunde Zeit, um eine Stichprobe der Dokumente zusammenzustellen, die Ihr Team am häufigsten verarbeitet. Lassen Sie sie durch die Tools Ihrer engeren Auswahl laufen. Messen Sie die Feldgenauigkeit bei den Feldern, die für Ihren Workflow wichtig sind – nicht bei jedem Zeichen auf der Seite. Die Zahl, die Sie erhalten, wird niedriger sein als die Marketingbehauptung. Aber es wird Ihre Zahl sein, und das ist die einzige, auf die es bei einer Entscheidung ankommt.

So liest man eine OCR-
Genauigkeitsangabe: 5 Fragen vor dem Kauf

Wichtige Erkenntnisse