KI-Extrahierte Daten prüfen: 7-Punkte-Checkliste für Tabellen

Sie haben gerade 300 Rechnungen extrahiert. Die Tabelle ist offen – Spalten gefüllt, Zeilen belegt, Summen rechts. Bevor Sie sie an die Buchhaltung weiterleiten oder in Ihr ERP importieren, gibt es einen Schritt, den die meisten Rechnungsextraktions-Anleitungen auslassen: die Qualitätskontrolle auf der Ausgabeseite. Hier ist die 7-Punkte-Checkliste, die 12 Minuten dauert und die Fehler abfängt, die zu falschen Zahlungen, falsch kategorisierten Ausgaben und Steuererklärungen führen, die Sie korrigieren müssen.

Jedes Extraktionstool liefert gelegentlich falsche Ergebnisse – selbst solche, die auf ihren Marketingseiten mit 99 % Genauigkeit werben. Eine um eine Stelle verschobene Dezimalzahl. Ein Datum, das auf das Lieferdatum statt auf das Rechnungsdatum verweist. Ein leeres Steuer-ID-Feld, weil die KI es auf Seite 3 nicht finden konnte. Wie unser Praxishandbuch zum Testen der Extraktionsgenauigkeit erklärt, ist „99 %“ eine Zahl ohne einheitliche Definition – entscheidend ist, ob Sie Fehler erkennen, bevor die Daten Ihre Tabelle verlassen.

Diese Checkliste ist für den Moment nach der Extraktion und vor der Weitergabe der Datei konzipiert. Jeder Prüfpunkt ist unabhängig – Sie können sie in beliebiger Reihenfolge durchführen –, aber zusammen bilden sie eine vollständige Kontrollinstanz. Führen Sie alle bei einem neuen Batch durch, und Sie werden mindestens einen Fehler finden, der Ihnen sonst entgangen wäre.

Prüfung 1: Spaltenausrichtung – Sind die Daten an der richtigen Stelle gelandet?

Der schnellste Weg, ein systemisches Extraktionsproblem zu erkennen, ist das vertikale Scannen von Spalten. Wenn die Extraktion auf Spaltenebene fehlschlägt, betrifft das meist ganze Batches – ein falsch gelesenes Feld verschiebt jeden Wert um eine Spalte nach links, oder eine Trennzeichenverwechslung setzt den Lieferantennamen an die Stelle der Adresse.

Vorgehen: Lesen Sie jede Spalte vertikal, nicht jede Zeile horizontal. Zeilenweises Scannen ist langsam, und Ihr Gehirn beginnt, Muster zu erkennen – Sie sehen die Daten nicht mehr. Beim Spaltenscannen hingegen springen Ausreißer sofort ins Auge. Eine Adresse in der Spalte „Betrag“ ist beim vertikalen Lesen unmöglich zu übersehen.

Textfelder: Enthält jede Zelle in der Spalte „Lieferantenname“ etwas, das wie ein Name aussieht – keine Straßenadresse, keine Telefonnummer, kein Datum?
Zahlenfelder: Wenn Sie eine Spalte „Betrag“ und eine Spalte „Steuer“ nebeneinander haben, sind die Größenordnungen plausibel? Die Steuer sollte etwa 5–25 % des Betrags betragen. Wenn die Steuer 2.495,00 € und der Betrag 2,50 € beträgt, sind sie vertauscht.
Kennzeichnungsfelder: Rechnungsnummern, Bestellnummern, Referenzcodes – folgen alle einem erkennbaren Muster, oder wurde in einer Zeile versehentlich eine Telefonnummer eingefügt?

Diese Prüfung dauert 90 Sekunden für eine Tabelle mit 200 Zeilen. Wenn Sie eine Spaltenverschiebung finden, haben Sie wahrscheinlich einen systematischen Fehler entdeckt, der alle Dokumente aus diesem Quellformat betrifft – korrigieren Sie die Spaltenzuordnung und extrahieren Sie neu, anstatt Zeilen einzeln zu korrigieren.

Prüfung 2: Zeilenanzahl vs. Dateianzahl – Fehlen Dokumente?

Nichts untergräbt eine Extraktionscharge schneller als ein fehlendes Dokument. Sie leiten 12 Rechnungen an die Buchhaltung weiter, aber nur 11 Zeilen landen im System – der 12. Lieferant schickt eine Mahnung und Sie verbringen 40 Minuten mit der Fehlersuche.

Vorgehen: Drei schnelle Plausibilitätschecks zur Zeilenanzahl:

Hochgeladene Dateien vs. Tabellenzeilen: Wenn Sie 47 Dateien hochgeladen haben und die Tabelle 44 Datenzeilen (plus Kopfzeile) enthält, haben drei Dokumente keine Ausgabe erzeugt. Das Statusprotokoll des Extraktionstools zeigt, welche fehlgeschlagen sind und warum – aber Sie können auf einen Fehler nicht reagieren, von dem Sie nichts wissen.
Leere Zeilen: Markieren Sie den gesamten Datenbereich und sortieren Sie aufsteigend nach einer beliebigen Textspalte. Leere Zeilen erscheinen oben. Eine komplett leere Zeile bedeutet meist, dass das Dokument verarbeitet wurde, aber keine Felder erkannt wurden – prüfenswert.
Doppelte Zeilen: Führen Sie =COUNTIF(A:A; A2) auf einer Identifikatorspalte wie Rechnungsnummer aus. Ein Wert von 2+ bedeutet, dass dasselbe Dokument zwei Zeilen erzeugt hat – entweder ein doppelter Upload oder ein mehrseitiges PDF, das in einer Zeile hätte zusammengeführt werden sollen.

Diese Checks dauern insgesamt zwei Minuten. Die Abweichung bei der Zeilenanzahl – hochgeladene Dateien minus erzeugte Zeilen – ist der einzelne Check mit der höchsten Wirkung, den die meisten überspringen, weil sie annehmen, das Tool hätte das erledigt.

Die Überprüfung der Zeilenanzahl ist besonders wichtig bei der Stapelverarbeitung – dem Modus, bei dem Sie mehrere Dateien auf einmal hochladen und eine zusammengeführte Tabelle exportieren. Eine einzelne Datei, die in einem Stapel von 50 stillschweigend fehlschlägt, ist schwer zu bemerken, wenn Sie nicht zählen. In ImageToTable.ai zeigt das Stapelstatus-Dashboard den Abschluss pro Datei an – grün für erledigt, rot für fehlgeschlagen – sodass die Abweichung vor dem Export sichtbar ist.

Prüfung 3: Zahlenvalidierung – Stimmen die Summen?

Bei Zahlen verursachen Extraktionsfehler messbare finanzielle Schäden. Ein falsch gelesenes Dezimalzeichen verwandelt eine Rechnung über 295,00 € in eine Verbindlichkeit von 2.950,00 € in Ihren Büchern. Eine Zwischensumme, die als Gesamtsumme gelesen wird, führt dazu, dass Sie eine Zahlung um 400 € zu niedrig genehmigen. Im Dokument enthaltene arithmetische Beziehungen sind eine kostenlose Validierungsebene – Sie müssen sie nur nutzen.

Vorgehen: Fügen Sie drei berechnete Spalten zu Ihrer Ausgabetabelle hinzu:

Prüfung	Formel	Erwartet
Zwischensumme + Steuer vs. Gesamtsumme	`=RUNDEN(Zwischensumme + Steuer - Gesamtsumme; 2)`	0,00
Summe Positionen vs. Zwischensumme	`=RUNDEN(SUMME(PositionsSpalte) - Zwischensumme; 2)`	0,00
Menge × Einzelpreis vs. Positionsendbetrag	`=RUNDEN(Menge * Einzelpreis - Positionsendbetrag; 2)`	0,00

Jede Zeile, in der das Ergebnis nicht Null ist, muss überprüft werden. In der Praxis deutet ein Nicht-Null-Ergebnis meist auf eines von drei Problemen hin: ein falsch gelesenes Dezimaltrennzeichen (das Komma-Punkt-Problem bei europäischen Rechnungen), die falsche Zeile als Gesamtsumme (das Tool hat die Zwischensumme aus einem Abschnitt übernommen und auf die ganze Rechnung angewendet) oder ein falsch gelesenes Mengenfeld (50 statt 15).

Wenn Ihr Extraktionstool berechnete Spalten unterstützt, können Sie diese arithmetischen Validierungen direkt in den Extraktionsschritt einbauen – das Tool führt die Berechnung beim Lesen des Dokuments durch und markiert die Zeile, bevor sie überhaupt in Ihre Tabelle gelangt. So wird der Check von einer nachgelagerten Excel-Formel zu einem stets aktiven Gate.

JPG/PNG/PDF KI-Extraktion

Dateien werden sicher verarbeitet und nicht gespeichert.

Prüfung 4: Datumsvalidierung — Einheitliches Format, plausibler Bereich

Ein Datumsfeld mit „01/03/2026“ ist unter DD/MM/YYYY korrekt. Unter MM/DD/YYYY bedeutet derselbe String den 3. Januar – drei Monate früher. Beides sind gültige Kalenderdaten. Nur eines stimmt mit dem tatsächlichen Dokument überein. Format-Mehrdeutigkeit ist der häufigste Datumsextraktionsfehler und bei oberflächlicher Prüfung unsichtbar.

Vorgehen: Drei Datumsprüfungen, geordnet nach Geschwindigkeit der Fehlererkennung:

Formateinheitlichkeit: Wählen Sie die Datumsspalte aus und wenden Sie eine bedingte Formatierung an, die jede Zelle hervorhebt, in der die Jahreszahl nicht vierstellig ist, der Monat 12 übersteigt oder der Tag 31 übersteigt. Ein Datum wie „2026-15-03“ (Monat 15) ist ein eindeutiger Extraktionsfehler – das Modell hat einen Monatswert halluziniert.
Plausibler Datumsbereich: Fügen Sie oben im Blatt =MIN(DatumsSpalte) und =MAX(DatumsSpalte) ein. Wenn Ihr Batch Rechnungen vom Juni 2026 umfasst und das Minimum der 01.01.2019 oder das Maximum der 15.12.2028 ist, stimmt etwas nicht. Außerhalb des Bereichs liegende Daten entstehen meist, weil die KI ein anderes Datum im Dokument gelesen hat – das Zahlungsdatum statt des Rechnungsdatums oder ein Datum aus einem völlig anderen Abschnitt.
Rechnungsdatum vs. Fälligkeitsdatum: Falls beide Felder extrahiert wurden, fügen Sie eine einfache Prüfspalte hinzu: =Rechnungsdatum <= Fälligkeitsdatum. Ein Fälligkeitsdatum vor dem Rechnungsdatum ist fast immer ein Extraktionsfehler – die KI hat die beiden Felder vertauscht.

Die Prüfung des Datumsbereichs fängt die teuersten Fehler. Eine einzelne Rechnung, extrahiert mit 15.03.2027 statt 15.03.2026, verschiebt 4.500 € Ausgaben in das falsche Geschäftsjahr. Ein Prüfer findet es. Sie korrigieren es. Aber die Korrektur kostet Sie Stunden an Erklärungen und überarbeiteten Einreichungen, die mit einem 30-Sekunden-=MAX()-Check vermieden worden wären.

Prüfung 5: Fehlende Felder – Welche Felder blieben leer?

Nicht jede leere Zelle ist ein Fehler – manche Dokumente enthalten bestimmte Felder tatsächlich nicht. Sie müssen jedoch wissen, welche Felder im gesamten Batch zu 0 % extrahiert wurden. Denn eine durchgängig leere Spalte ist fast immer ein Konfigurationsproblem, keine Dokumenteigenschaft.

Vorgehen: Zählen Sie für jede angeforderte Spalte, wie viele Zeilen Daten enthalten und wie viele leer sind. Markieren Sie in Excel die Spalte und prüfen Sie die Statusleiste auf die Anzahl (leere Zellen werden bei COUNT ausgeschlossen, die angezeigte Anzahl ist Ihre Befüllungsrate). Oder verwenden Sie =COUNTA(Spaltenbereich) / COUNTA(A:A), um einen Prozentsatz zu erhalten.

Interpretationshilfe für Befüllungsraten:

90-100 % befüllt: Normal. Einige wenige Dokumente fehlt dieses Feld tatsächlich – ein Lieferant, der keine Umsatzsteuer-ID angibt, eine Rechnung ohne Bestellnummer.
40-90 % befüllt: Prüfenswert. Das Feld ist in den meisten Dokumenten vorhanden, aber die Extraktionsengine findet es nicht zuverlässig. Prüfen Sie, ob der von Ihnen angegebene Spaltenname mit der Terminologie des Dokuments übereinstimmt – „Lieferant“ vs. „Verkäufer“ vs. „Absender“ kann je nach Dokumentformat unterschiedliche Trefferquoten ergeben.
0-40 % befüllt: Wahrscheinlich ein Konfigurationsproblem. Der Spaltenname ist möglicherweise zu spezifisch („Zahlungsavis-Referenz“, wenn Dokumente „Zahlungsreferenz“ verwenden), oder das Feld eignet sich nicht für eine direkte Extraktion – es erfordert eine inferierte Extraktion, bei der die KI den Wert aus dem Kontext ableitet, statt ihn aus einem beschrifteten Feld auszulesen.

Eine Spalte mit 5 % Befüllungsrate, bei der Sie 95 % erwartet haben, bedeutet eines von zwei Dingen: Die Dokumente enthalten nicht das Angeforderte (prüfen Sie ein Beispiel), oder das Extraktionstool ordnet den Spaltennamen nicht dem richtigen Dokumentfeld zu (passen Sie den Spaltennamen an und extrahieren Sie erneut). In beiden Fällen verhindert das frühzeitige Erkennen dieses Problems, dass drei Tage später die E-Mail aus der Buchhaltung kommt: „Warum ist diese Spalte leer?“

Prüfung 6: Feldübergreifende Logik – Zusammenhänge, die stimmen müssen

Einzelfeld-Prüfungen (Prüfung 3 deckte Arithmetik ab; Prüfung 4 deckte Daten ab) fangen einzelne Fehler. Feldübergreifende Logik erkennt Fehler, bei denen jedes Feld für sich plausibel wirkt, die Beziehung zwischen Feldern jedoch unmöglich ist. Dies sind die schwersten Fehler, die man mit bloßem Auge erkennt, und die leichtesten, die man mit einer Formel abfängt.

Vorgehen: Erstellen Sie einige Logikregeln, die für Ihren Dokumenttyp spezifisch sind. Beginnen Sie mit diesen branchenübergreifenden Prüfungen und fügen Sie eigene hinzu:

Dokumenttyp	Logikregel	Formelgerüst
Rechnung	Rechnungsdatum ≤ Fälligkeitsdatum	`=InvoiceDate <= DueDate`
Rechnung / Bestellung	Positionssumme = Menge × Einzelpreis	`=RUNDEN(Menge * Einzelpreis - Positionssumme; 2)=0`
Rechnung	Steuerbetrag ≈ Steuersatz × Nettobetrag	`=ABS(Steuer / Nettobetrag - Steuersatz) < 0,02`
Quittung / Ausgabe	Datum innerhalb des Berichtszeitraums	`=UND(Datum >= ZeitraumStart; Datum <= ZeitraumEnde)`
Stundenzettel	Endzeit > Startzeit	`=Endzeit > Startzeit`
Kontoauszug	Endsaldo = Anfangssaldo + Σ Buchungen	`=RUNDEN(Anfang + SUMME(Buchungsbereich) - Ende; 2)=0`

Jede Regel erzeugt eine WAHR/FALSCH-Spalte. Jede FALSCH-Zeile erfordert manuelle Prüfung. Bei einem Batch von 200 Dokumenten werden Sie typischerweise 2–5 Zeilen markieren – das sind 2–5 Extraktionsfehler, die Sie korrigieren können, bevor sie zu Buchhaltungsfehlern werden. Die Alternative ist, sie beim Monatsabschluss zu finden, was wesentlich mehr Zeit kostet und Druck erzeugt, der zu übereilten Korrekturen führt.

Eine ausführliche Anleitung, wie feldübergreifende Arithmetik getarnte Fehler aufdeckt, finden Sie in unserem Leitfaden Extraktionsergebnisse mit einem mehrschichtigen Stichproben-Framework verifizieren, der die vier arithmetischen Prüfungen detailliert mit fehlertypbezogener Diagnose behandelt.

Prüfung 7: Stichproben — 3 Zeilen auswählen und mit dem Original vergleichen

Automatisierte Prüfungen (Prüfung 1–6) erkennen strukturelle Fehler – also solche, die einem Muster folgen. Aber nicht alle Fehler folgen Mustern. Ein einmaliger Lesefehler in einem einzelnen Dokument – die KI verwechselt zwei ähnliche Positionen oder extrahiert bei einem verblassten Scan 15 statt 5 als Menge – passiert die meisten formelbasierten Prüfungen, weil die Zahl plausibel aussieht und die Rechnung aufgeht. Ein Mensch, der das Quelldokument ansieht, erkennt den Fehler in 20 Sekunden.

Vorgehen: Wählen Sie 3 zufällige Zeilen aus der Tabelle aus. Öffnen Sie die zugehörigen Originaldokumente nebeneinander. Prüfen Sie jedes Feld. Achten Sie auf alles, was nicht übereinstimmt – eine falsche Ziffer, ein vertauschtes Feld, eine fehlende Position. Es geht nicht um Vollständigkeit. Es geht darum, den Fehlertyp zu finden, den statistische Stichproben und Formelprüfungen nicht erkennen.

Welche 3 Zeilen? Nicht die ersten drei – das sind meist die Dokumente, die Sie beim Einrichten der Extraktion geprüft haben. Nicht offensichtliche Ausreißer – die wurden von den automatischen Prüfungen bereits markiert. Verwenden Sie dreimal =ZUFALLSBEREICH(2; ANZAHL2(A:A)) und prüfen Sie diese Zeilen. Sind alle drei fehlerfrei, ist der Batch mit hoher Wahrscheinlichkeit in Ordnung. Enthält eine oder mehrere Zeilen Fehler, erhöhen Sie die Stichprobe auf 10 zufällige Zeilen. Finden Sie Fehler in 10 Zeilen, benötigt der Batch eine gründlichere Überprüfung.

Die Stichprobe zeigt, ob die automatischen Prüfungen tatsächlich funktionieren. Wenn Prüfung 3 „alle Summen stimmen“ meldet, Ihre zufällige Zeile aber eine Zwischensumme enthält, die nicht der Summe der Positionen entspricht, dann hat Ihre Formel einen Fehler – und Sie haben ihn entdeckt, bevor Sie 200 Zeilen mit einer defekten Prüfung verarbeiten.

Wann neu extrahieren und wann manuell korrigieren

Die Durchführung dieser Checkliste wird Probleme aufdecken. Die nächste Entscheidung ist, ob Sie einzelne Zellen korrigieren oder die Extraktion wiederholen. Die Regel ist einfach: Tritt derselbe Fehler in drei oder mehr Dokumenten auf, liegt die Ursache in der Extraktionskonfiguration – korrigieren Sie die Spaltennamen, passen Sie die Formatspezifikation an und extrahieren Sie neu. Ist der Fehler auf ein einzelnes Dokument mit ungewöhnlicher Formatierung beschränkt, korrigieren Sie die Zelle und machen Sie weiter.

Drei Anzeichen dafür, dass Sie neu extrahieren statt manuell korrigieren sollten:

Dasselbe Feld ist in mehreren Zeilen falsch. Wenn 15 Rechnungen die falsche Summe haben, liest das Extraktionstool bei diesem Dokumentformat konsistent die falsche Zeile. Eine Anpassung der Spaltenspezifikation – z. B. von „Summe“ auf „Gesamtsumme“ – korrigiert alle 15 auf einmal.
Eine Spalte ist komplett leer oder durchgängig falsch. Dies ist ein Fehler in der Spaltenzuordnung. Die Ausgabe ist wertlos, und eine manuelle Korrektur würde bedeuten, jeden Wert von Grund auf neu einzugeben – was den Sinn der Extraktion zunichte macht.
Daten haben im gesamten Batch das falsche Format. Eine Anpassung der Formatspezifikation (TT.MM.JJJJ vs. MM/TT/JJJJ) korrigiert den gesamten Batch bei der Extraktion. Das nachträgliche Korrigieren von Daten einzeln ist die mühsamste und fehleranfälligste Nachbearbeitung.

Manuelle Korrektur ist die richtige Wahl, wenn der Fehler auf ein einzelnes Dokument beschränkt ist – ein verschmierter Scan, eine handschriftliche Notiz, die die KI falsch gelesen hat, ein ungewöhnliches Layout eines bestimmten Lieferanten. Öffnen Sie die Quelle, lesen Sie den Wert ab, tippen Sie ihn ein. Eine Bearbeitung, erledigt.

Diese Checkliste in Ihren Arbeitsablauf einbauen

Beim ersten Durchlauf dieser Checkliste benötigen Sie vielleicht 20 Minuten – Sie bauen die Formeln auf, finden heraus, welche Spalte welche ist, und lernen, wo Fehler typischerweise auftreten. Beim dritten Durchlauf dauert es 12 Minuten. Beim zehnten haben Sie eine Vorlagen-Tabelle mit allen vorgefertigten Formeln – Sie fügen die extrahierten Daten ein, die Prüfungen leuchten auf, und Sie verbringen 5 Minuten mit den markierten Zeilen und den 3 Stichproben.

Betrachten Sie diese Checkliste so, wie QA-Ingenieure Testsuiten betrachten: Die anfängliche Investition liegt im Aufbau der Prüfungen, und jeder weitere Durchlauf zahlt sich aus, indem Fehler abgefangen werden, bevor sie Ihren Rechner verlassen. Eine Rechnung über 50.000 €, die mit einem falsch abgelesenen Gesamtbetrag bezahlt wird, kostet weit mehr als die 12 Minuten, die für die Überprüfung nötig sind.

Häufig gestellte Fragen

Wie lange dauert diese 7-Punkte-Checkliste tatsächlich?

Für einen Stapel von 200 Dokumenten in einem vertrauten Format: 12 Minuten. Aufschlüsselung: Prüfungen 1-2 (Spaltenscan + Zeilenanzahl) – 3 Minuten. Prüfungen 3-6 (Formeln) – 5 Minuten für die einmalige Einrichtung, 2 Minuten zur Überprüfung der markierten Zeilen. Prüfung 7 (Stichproben) – 5 Minuten, um 3 Dokumente zu öffnen und zu vergleichen. Nach dem ersten Durchlauf reduziert die Wiederverwendung der Vorlage die Gesamtzeit auf unter 10 Minuten.

Muss ich alle 7 Prüfungen bei jedem Durchlauf ausführen?

Prüfungen 1-2 und 7 bei jedem Durchlauf – sie bieten den höchsten Ertrag bei geringstem Aufwand. Prüfungen 3-6 richten Sie einmalig als Tabellenvorlagen ein und sie laufen automatisch, wenn Sie neue Daten einfügen. Die Frage ist nicht „Soll ich sie ausführen?" – einmal eingerichtet, laufen sie von selbst. Die Frage ist „Überprüfe ich die markierten Zeilen?", und die Antwort ist immer ja.

Was ist, wenn das Extraktionstool eine integrierte Validierung hat – brauche ich diese dann noch?

Die integrierte Validierung deckt in der Regel formatbezogene Prüfungen ab: „Dieser Wert ist kein gültiges Datum" oder „Diese Zelle ist leer." Die Prüfungen in diesem Artikel decken beziehungsbezogene Validierungen ab, die kein Extraktionstool ohne Kenntnis Ihres Geschäftskontexts vollständig automatisieren kann. Das Tool weiß nicht, dass das Rechnungsdatum vor dem Fälligkeitsdatum liegen muss – für Ihre Lieferantenvereinbarungen. Es kennt Ihre Berichtszeiträume nicht. Diese Regeln leben in Ihrer Tabelle, und sie sind die fünf Minuten wert, die Sie für ihren Aufbau benötigen.

Kann ich die Stichprobe überspringen, wenn alle automatischen Prüfungen bestanden sind?

Nein. Die Stichprobe (Prüfung 7) ist nicht überflüssig neben den automatischen Prüfungen – sie erfüllt einen anderen Zweck. Automatische Prüfungen stellen sicher, dass Zahlen den von Ihnen kodierten Regeln folgen. Die Stichprobe stellt sicher, dass die von Ihnen kodierten Regeln die richtigen Regeln sind und korrekt funktionieren. Eine Formel, die aufgrund eines Referenzfehlers stillschweigend Null zurückgibt, erzeugt trügerische Sicherheit. Die Stichprobe hält Ihre Automatisierung ehrlich.

Was ist der häufigste Fehler bei allen 7 Prüfungen?

Spaltenfehlausrichtung (Prüfung 1) ist der häufigste und am schnellsten zu erkennende Fehler. In etwa jeder 15. Charge landet mindestens ein Feld in der falschen Spalte – meist weil zwei benachbarte Felder ähnlich aussehende Werte haben. Ein Betrag und ein Steuerbetrag nebeneinander, beide numerisch, beide in einem plausiblen Bereich. Sie erkennen es nur, indem Sie die Spalte vertikal lesen und bemerken, dass „Steuer“-Werte in der Betragsspalte verdächtig nach 15–20 % der tatsächlichen Beträge aussehen.

Verifikation ist die Lücke zwischen „Ich habe das Tool zum ersten Mal benutzt“ und „Ich vertraue der Ausgabe.“ Es geht nicht darum, die Extraktions-Engine anzuzweifeln – sondern darum, die Konsequenzen zu respektieren, wenn etwas ungeprüft durchgeht. Zwölf Minuten pro Charge, sieben Prüfungen, das Vertrauen, die Datei zu schließen und weiterzumachen.

Führen Sie diese Checkliste bei Ihrer nächsten Charge extrahierter Dokumente durch. Öffnen Sie die Tabelle, gehen Sie Prüfung 1 bis 7 der Reihe nach durch und sehen Sie, was zum Vorschein kommt. Wenn Sie das erste Mal eine Dezimalverschiebung erwischen, bevor sie zu einem Zahlungsfehler wird, haben sich die 12 Minuten bezahlt gemacht. Laden Sie eine Charge hoch und führen Sie die Verifikations-Checkliste selbst durch.

KI-Extrahierte Daten prüfen:7-Punkte-Checkliste für Tabellen

Wichtige Erkenntnisse

Prüfung 1: Spaltenausrichtung – Sind die Daten an der richtigen Stelle gelandet?

Prüfung 2: Zeilenanzahl vs. Dateianzahl – Fehlen Dokumente?

Prüfung 3: Zahlenvalidierung – Stimmen die Summen?

Prüfung 4: Datumsvalidierung — Einheitliches Format, plausibler Bereich

Prüfung 5: Fehlende Felder – Welche Felder blieben leer?

Prüfung 6: Feldübergreifende Logik – Zusammenhänge, die stimmen müssen

Prüfung 7: Stichproben — 3 Zeilen auswählen und mit dem Original vergleichen

Wann neu extrahieren und wann manuell korrigieren

Diese Checkliste in Ihren Arbeitsablauf einbauen

Häufig gestellte Fragen

Wie lange dauert diese 7-Punkte-Checkliste tatsächlich?

Muss ich alle 7 Prüfungen bei jedem Durchlauf ausführen?

Was ist, wenn das Extraktionstool eine integrierte Validierung hat – brauche ich diese dann noch?

Kann ich die Stichprobe überspringen, wenn alle automatischen Prüfungen bestanden sind?

Was ist der häufigste Fehler bei allen 7 Prüfungen?

KI-Extrahierte Daten prüfen:
7-Punkte-Checkliste für Tabellen