Warum meine Stapelverarbeitung die Hälfte der Dateien
übersehen hat? Häufige Fehlerursachen
Sie haben 30 Dateien hochgeladen. Nur 22 kamen in der Tabelle an. Keine Fehlermeldung, keine Warnung – einfach die Hälfte Ihrer Daten fehlt. So ist es passiert, nach Wahrscheinlichkeit geordnet.
Das Beunruhigende sind nicht die 8 fehlenden Dateien. Es ist die Stille darum. Ein Stapelverarbeitungstool, das überall grüne Häkchen zeigte, ein Download, der vollständig aussah, und erst später – beim Abgleich der Zeilen mit den Originalen – offenbarte sich die Lücke. Dieses Muster ist häufiger, als die meisten Nutzer glauben, und es ist fast nie zufällig. Dateien verschwinden nicht spurlos. Sie scheitern an bestimmten Stellen der Pipeline, und jede Fehlerursache hinterlässt eine Spur.
Dieser Artikel führt durch die drei Phasen, in denen Dateien verloren gehen können – Upload, Verarbeitung und Ausgabe-Zusammenführung – geordnet nach der Wahrscheinlichkeit, dass sie die Ursache sind. Am Ende haben Sie ein Diagnose-Framework und eine Checkliste vor dem Upload, um die häufigsten Ursachen zu erkennen, bevor sie bei Ihrem nächsten Stapel erneut 8 Dateien verschwinden lassen.
Wichtige Erkenntnisse
- Sie haben 30 Dateien hochgeladen, das Tool zeigte grüne Häkchen, und der Download sah vollständig aus – aber nur 22 Zeilen kamen an, ohne eine einzige Fehlermeldung für die 8 fehlenden.
- Dateien verschwinden nicht zufällig; sie scheitern an drei spezifischen Pipeline-Gates – 60% beim Upload (nicht unterstützte Formate wie TIFF, Sonderzeichen in Dateinamen, beschädigte Bytes), 30% während der Verarbeitung (Parallelitätsabbrüche, stille Timeouts) und 10% beim Zusammenführen (strukturelle Konflikte).
- Eine 30-Sekunden-Checkliste vor dem Upload – nach Erweiterung sortieren, Dateien über 30 MB prüfen, Dateinamen bereinigen, nach Dokumenttyp gruppieren – fängt die meisten Fehler ab, und die 8 fehlenden Dateien sind mit ziemlicher Sicherheit noch auf Ihrem Rechner und bereit zur erneuten Verarbeitung.
Stufe 1: Die Datei hat es nie über den Upload geschafft
Dies ist die häufigste Ursache für fehlende Dateien und auch die am leichtesten zu übersehende, da die Upload-Fortschrittsanzeige reibungslos läuft – sie hört nur auf zu zählen, bevor die Problemdateien in die Warteschlange gelangen. Das Tool hat diese Dateien als "versucht" statt "hochgeladen" registriert, und ohne eine dateispezifische Fehlerprotokollierung bleibt die Lücke unbemerkt.
Nicht unterstütztes Dateiformat
Nicht alle Bild- und Dokumentformate sind gleich. Die meisten KI-Extraktionstools – einschließlich ImageToTable.ai – unterstützen PDF, JPG, PNG, WebP und AVIF. Enthält Ihr Batch jedoch eine TIFF-Datei, ein HEIC-Foto vom iPhone oder einen BMP-Screenshot eines älteren Systems, wird die Datei vom Upload-Handler möglicherweise einfach übersprungen. TIFF ist besonders häufig der Übeltäter: Viele Scanner standardmäßig auf mehrseitiges TIFF, und obwohl TIFF ein gültiges Bildcontainerformat ist, steht es nicht auf der Eingabeliste der meisten Extraktionstools. Die Datei scheint hochgeladen zu werden – der Browser sendet sie – aber die Verarbeitungspipeline nimmt sie nie auf.
So prüfen Sie es: Sortieren Sie Ihren Quellordner vor dem Upload nach Dateierweiterung. Wenn Sie .tiff, .heic, .bmp oder .svg sehen, konvertieren Sie diese zuerst in JPG oder PNG. Die meisten Betriebssysteme können Stapelkonvertierungen im Datei-Explorer oder Finder durchführen. Ein 30-sekündiger Konvertierungsschritt spart stundenlanges Kopfzerbrechen im Nachhinein.
TIFF ist das mit Abstand häufigste nicht unterstützte Format, das die Stapelverarbeitung behindert. Wenn Ihr Scanner standardmäßig TIFF verwendet, ändern Sie die Ausgabeeinstellung auf JPEG oder PDF, bevor Sie den nächsten Stapel scannen.
Beschädigte oder unvollständige Dateien
Eine Datei, die auf Ihrem Rechner einwandfrei geöffnet wird, kann dennoch die Upload-Integritätsprüfung nicht bestehen. Das PDF hat möglicherweise eine abgeschnittene letzte Seite von einem unterbrochenen Cloud-Download. Das Bild könnte einen beschädigten EXIF-Header von einem fehlgeschlagenen Kameraschreibvorgang haben. Eine Datei, die in der Vorschau "gut aussieht" – weil das Betriebssystem ein zwischengespeichertes Miniaturbild anzeigt – kann fehlschlagen, wenn das Extraktionstool versucht, ihre Bytes zu lesen.
Dies tritt besonders häufig bei Dateien auf, die von E-Mail-Anhängen oder Cloud-Speicherlinks heruntergeladen wurden. Die Datei wird geöffnet, der Inhalt sieht richtig aus, aber die Binärdaten sind nicht einwandfrei. Extraktionstools lesen im Gegensatz zu Menschen, die eine Vorschau betrachten, die Bytes – und defekte Bytes liefern leere Ergebnisse.
So prüfen Sie es: Versuchen Sie, jede verdächtige Datei zu öffnen und erneut zu speichern. Verwenden Sie in Adobe Acrobat "Datei → Speichern unter → Optimiertes PDF", um latente Beschädigungen zu entfernen. Bei Bildern behebt ein schnelles erneutes Speichern in einem beliebigen Fotoeditor in der Regel Header-Probleme.
Dateigrößenbeschränkungen
Die meisten Extraktionstools begrenzen einzelne Dateigrößen. Auf ImageToTable.ai liegt das Standard-Upload-Limit im Bereich typischer Bürodokumente, aber ein 200-seitiger gescannter PDF oder ein hochauflösendes Rechnungsfoto mit 48 Megapixeln kann es überschreiten. Das Tool lehnt den Upload nicht immer sichtbar ab – es akzeptiert möglicherweise die Dateimetadaten, überspringt aber den eigentlichen Inhalt, sobald es die Größenüberschreitung erkennt.
Prüfung: Überprüfen Sie Ihre Dateien vor dem Hochladen. Überschreitet eine Datei 30–50 MB, teilen Sie mehrseitige PDFs mit einem PDF-Splitter auf oder reduzieren Sie die Bildauflösung. Tools wie PDFsam oder die Funktion „Dokument aufteilen“ in Adobe Acrobat erledigen dies in Sekunden.
Sonderzeichen in Dateinamen
Eine oft übersehene Fehlerquelle. Dateien wie INV-2026-03-15_återbetalning.pdf oder 收据-001.jpg oder Rechnung (final - NICHT BEARBEITEN).pdf – mit Nicht-ASCII-Zeichen, Sonderzeichen oder sehr langen Pfaden – können beim serverseitigen Schreibvorgang fehlschlagen. Der Upload gelingt, der Server akzeptiert den Datenstrom, aber beim Schreiben in den temporären Speicher unter dem Originalnamen weist das Dateisystem die Zeichenkodierung zurück. Die Datei gilt als „empfangen“, landet aber nie auf der Festplatte zur Verarbeitung.
Prüfung: Durchsuchen Sie Ihre Dateinamen nach Zeichen außerhalb von alphanumerischen Standardzeichen, Bindestrichen und Unterstrichen. Eine schnelle Umbenennung – INV-2026-03-15-rueckerstattung.pdf statt des Originals – eliminiert diese Variable vollständig.
Stufe 2: Hochgeladen, aber während der Verarbeitung stillschweigend verworfen
Diese Stufe ist schwieriger zu diagnostizieren, da der Upload bestätigt wurde. Das Tool zeigt 30 hochgeladene Dateien mit 30 grünen Indikatoren. Aber während der Verarbeitungsphase – wenn die KI jedes Dokument liest und die Daten extrahiert – können Dateien vom Förderband fallen, ohne einen Fehler auszulösen. Die Verarbeitungsoberfläche zeigt „Abgeschlossen“, weil die Kern-Engine ihre Arbeit beendet hat, aber es wurden weniger Dokumente verarbeitet als hochgeladen.
Drosselung der Parallelverarbeitung und Warteschlangenlimits
KI-Extraktion ist rechenintensiv. Jedes Dokument erfordert eine Vision-Modell-Inferenz, die GPU-Speicher und API-Durchsatz verbraucht. Zur Stabilisierung erzwingen Extraktionstools Parallelitätslimits – typischerweise 4 bis 8 gleichzeitige Verarbeitungsslots pro Benutzer. Wenn Sie 50 Dateien hochladen, gelangen diese in eine Warteschlange, und das Tool verarbeitet sie in Wellen: 4 auf einmal, dann die nächsten 4 und so weiter.
Das Problem tritt auf, wenn die Warteschlange eine harte Obergrenze hat. Manche Systeme verwerfen stillschweigend Dateien, die die Warteschlangentiefe überschreiten. Wenn Ihr Plan 50 Dateien pro Batch, aber nur 4 gleichzeitige Slots erlaubt und die Verarbeitungs-Engine auf einen der ersten 4 Dateien auf einen persistenten Fehler stößt – etwa eine beschädigte PDF, die den Reader hängen lässt – kann dies die gesamte Welle so lange aufhalten, dass die restlichen Dateien in der Warteschlange auslaufen und verworfen werden. Die Benutzeroberfläche zeigt weiterhin „50 hochgeladen, 46 verarbeitet“ – aber die 4 fehlenden wurden nie tatsächlich versucht.
So prüfen Sie es: Teilen Sie Ihren Upload in kleinere Batches von 10–15 Dateien auf und verarbeiten Sie diese nacheinander. Wenn ein bestimmter Batch konsequent Dateien verliert, während kleinere Batches dies nicht tun, ist die Drosselung der Parallelverarbeitung die Ursache. Dieses Verhalten ist in mehreren Batch-Verarbeitungssystemen dokumentiert – von Google Document AI bis hin zu selbst gehosteten OCR-Pipelines – wo die Diskrepanz zwischen „hochgeladen“ und „verarbeitet“ fast immer ein Warteschlangen-Artefakt ist.
Stille Zeitüberschreitungen bei großen oder komplexen PDFs
Eine PDF mit über 100 Seiten oder komplexen eingebetteten Grafiken kann das dokumentbezogene Verarbeitungs-Timeout der Extraktions-Engine überschreiten. Anders als bei einem expliziten Timeout-Fehler – der Ihnen mitteilen würde, dass die Datei fehlgeschlagen ist – behandeln manche Systeme dies, indem sie die Datei stillschweigend überspringen und mit der nächsten fortfahren. Der Verarbeitungsjob protokolliert die Datei als „abgeschlossen“, weil der Timeout-Handler den Thread ordnungsgemäß geschlossen hat, aber es wurde kein Extraktionsergebnis generiert.
Dies tritt besonders häufig bei gescannten PDFs auf, die im Wesentlichen 100 separate JPEG-Bilder sind, die in einer einzigen Datei gebündelt sind. Jede Seite erfordert einen vollständigen OCR-Durchlauf, und die kumulative Zeit kann auf der 70. Seite die Timeout-Schwelle überschreiten – woraufhin der Prozessor die angesammelte Arbeit verwirft und fortfährt.
So prüfen Sie es: Laden Sie die problematische Datei einzeln hoch. Wenn sie als eigenständiger Upload erfolgreich verarbeitet wird, aber im Batch-Modus übersprungen wird, ist ein Timeout während der Batch-Warteschlange die Ursache. Erwägen Sie bei mehrseitigen PDFs mit über 30 Seiten, diese vor dem Batch-Upload in kleinere Dokumente aufzuteilen.
Gemischte Dateitypen verhalten sich unterschiedlich
Nicht alle Dateitypen werden gleich schnell verarbeitet. Ein Batch, der einseitige JPG-Screenshots mit 50-seitigen gescannten PDFs mischt, erzeugt einen ungleichmäßigen Verarbeitungsrhythmus. Die leichten JPGs sind schnell fertig, während die schweren PDFs überproportional viel Verarbeitungszeit beanspruchen. Wenn ein Batch-Timeout auf Basis der Gesamtverarbeitungszeit aller Dateien berechnet wird, können die langsamen PDFs dazu führen, dass die später in der Warteschlange eingetroffenen JPGs verworfen werden – obwohl die JPGs für sich allein problemlos verarbeitet worden wären.
Dies ist ein systemisches Problem, das jedes Batch-Extraktionstool betrifft, keine Eigenart eines bestimmten Produkts. Die Ursache liegt darin, dass Verarbeitungspipelines Batches typischerweise heterogen zusammenstellen, das Timeout aber homogen messen.
So prüfen Sie: Gruppieren Sie Dateien vor dem Hochladen nach Typ und Größe. Verarbeiten Sie alle kleinen JPG-Dateien in einem Batch und die großen PDFs separat. So isolieren Sie die langsamen von den schnellen Dateien und vermeiden Querkontamination in der Timeout-Logik.
Stufe 3: Verarbeitet, aber beim Zusammenführen verloren
Der seltenste, aber tückischste Fehlermodus. Alle 30 Dateien wurden erfolgreich hochgeladen, alle 30 wurden von der KI verarbeitet, alle 30 lieferten Extraktionsergebnisse. Aber die endgültige zusammengeführte Ausgabe – die einzelne heruntergeladene Tabelle – enthält nur 22 Zeilen. Die anderen 8 wurden als einzelne Dokumente verarbeitet, aber nie in den einheitlichen Export eingefügt.
Unterschiedliche Dateistrukturen erzeugen falsch ausgerichtete Zeilen
Wenn Sie eine Batch-Extraktion für eine Reihe von Dokumenten durchführen, versucht die Batch-Verarbeitungsengine des Tools, die Ergebnisse in einer einzigen Tabelle mit konsistenten Spaltenüberschriften zusammenzuführen. Dies funktioniert nahtlos, wenn alle Dateien vom gleichen Typ sind – z. B. 30 Rechnungen. Wenn Ihr Batch jedoch 25 Rechnungen und 5 Gutschriften enthält, können die Gutschriften andere Felder haben (z. B. „Gutschriftnummer“ statt „Rechnungsnummer“), was dazu führt, dass der Merge-Algorithmus entweder doppelte Spalten erstellt oder – in manchen Implementierungen – Zeilen überspringt, deren Struktur nicht zum Mehrheitsschema passt.
Dies ist im strengen Sinne kein Datenverlust; die Extraktion war erfolgreich. Aber die Exportlogik behandelte diese 8 Dateien als strukturelle Ausreißer und schloss sie aus der einheitlichen Tabelle aus, um die Spaltenkonsistenz zu wahren. Das Tool hat Sie nie informiert, weil es aus seiner Sicht den sauberstmöglichen Merge geliefert hat.
So prüfen Sie: Achten Sie auf Unterschiede zwischen Ihren Quelldateien. Wenn eine Teilmenge eine andere Seitenausrichtung, eine andere Sprache oder einen grundlegend anderen Dokumenttyp aufweist, verarbeiten Sie diese Dateien als separaten Batch. Die Definition von „Batch“ ist entscheidend – Ihr Workflow sollte Dateien nach struktureller Ähnlichkeit gruppieren, nicht nach Ordnerbequemlichkeit.
Dieses Problem tritt besonders häufig bei der Batch-Verarbeitung von ähnlichen, aber nicht identischen Dokumenten auf, wie z. B. beim Extrahieren von Tabellen aus Dokumenten mit verbundenen Zellen oder verschachtelten Strukturen, bei denen die Zeilenanzahl pro Dokument unvorhersehbar variiert.
Die Checkliste vor dem Hochladen – 30 Sekunden pro Stapel
Die meisten der oben genannten Fehlerquellen haben eines gemeinsam: Sie lassen sich vor dem Hochladen durch einen schnellen visuellen Scan Ihres Quellordners erkennen. Behandeln Sie diese Checkliste als Tor zwischen „bereit zur Verarbeitung" und „Stapel starten". Das dauert weniger Zeit als die Fehlersuche bei 8 fehlenden Dateien danach.
- Dateiformat-Prüfung – Stellen Sie sicher, dass jede Datei JPG, PNG oder PDF ist. Konvertieren Sie TIFF-, HEIC-, BMP- oder WebP-Dateien. Eine schnelle Sortierung nach Erweiterung im Datei-Explorer zeigt Ausreißer sofort an.
- Dateigrößen-Scan – Prüfen Sie auf Dateien über 30 MB. Falls vorhanden, teilen oder komprimieren Sie diese.
- Dateinamen-Bereinigung – Benennen Sie Dateien mit Sonderzeichen (&, %, #, Klammern) oder Nicht-ASCII-Buchstaben (é, ü, å, 中) um. Verwenden Sie nur
A-Z,0-9, Bindestriche und Unterstriche. - Typen-Homogenitätsprüfung – Sind alle Dateien vom gleichen Dokumenttyp? Wenn Sie Rechnungen mit Gutschriften, Bestellungen mit Lieferscheinen mischen, trennen Sie sie in eigene Stapel.
- Stichprobe mit einer großen Datei – Laden Sie Ihr größtes PDF einzeln hoch und prüfen Sie, ob es korrekt verarbeitet wird. Wenn es allein eine Zeitüberschreitung verursacht, wird es in einem Stapel definitiv fehlschlagen.
- Stapelgrößen-Kontrolle – Wenn Sie mehr als 30 Dateien haben, teilen Sie sie in kleinere Stapel von 10-15 auf. Kleinere Stapel isolieren Probleme und werden insgesamt schneller abgeschlossen.
Wann Sie eskalieren sollten – Ist dies das richtige Werkzeug für Ihre Dateien?
Ehrlichkeit über die Grenzen des Werkzeugs verhindert wiederholte Frustration. Wenn Sie über mehrere Stapel hinweg ständig Dateien verlieren und die Checkliste vor dem Hochladen keine Ursache aufdeckt, überlegen Sie, ob Ihre Dokumentensammlung Merkmale aufweist, die gegen die Designannahmen der meisten Extraktionswerkzeuge verstoßen.
Stapel-Extraktionswerkzeuge – einschließlich ImageToTable.ai – sind für den Normalfall konzipiert: Standard-Bürodokumente, saubere Scans und Fotos mit lesbarem Inhalt. Sie sind nicht ausgelegt für:
- Extrem große Einzeldokumente – PDFs mit über 500 Seiten gehören in eine dedizierte Dokumentenverwaltungspipeline, nicht in eine Stapel-Extraktionswarteschlange.
- Stark heterogene Sammlungen – 15 verschiedene Dokumenttypen in einem Ordner bringen jede Zusammenführungs-Engine an ihre Grenzen. Trennen Sie sie.
- Verschlüsselte oder rechteverwaltete PDFs – Passwortgeschützte Dateien werden von praktisch jedem Extraktionswerkzeug übersprungen. Entfernen Sie den Schutz vor dem Hochladen.
- Dokumente mit pixelgenauer Positionierung – Wenn Ihr Anwendungsfall die genauen X,Y-Koordinaten jedes Feldes erfordert, ist ein vorlagenbasiertes zonales OCR-Werkzeug möglicherweise besser geeignet als eine semantische Extraktions-Engine.
Wenn Ihre Dateien in eine dieser Kategorien fallen, ist die Lösung nicht eine bessere Fehlersuche – sondern die Anpassung Ihres Workflows an das Design des Werkzeugs. Das ist kein Versagen des Werkzeugs oder Ihres Prozesses. Es ist ein Zeichen dafür, dass Ihre spezifischen Dokumenteigenschaften einen anderen Ansatz für die Extraktionspipeline benötigen.
Häufig gestellte Fragen
Warum zeigt mein Extraktionstool keinen Fehler an, wenn Dateien fehlschlagen?
Die meisten Extraktionstools melden auf Batch-Ebene („30 Dateien hochgeladen“) statt auf Dateiebene. Wenn eine Datei beim Hochladen fehlschlägt, ohne in der Verarbeitungswarteschlange registriert zu werden, hat das Tool keine Aufzeichnung darüber, dass sie zur Verarbeitung vorgesehen war. Die Diskrepanz zwischen Ihrer Zählung und der des Tools entsteht an der Grenze, wo die Verantwortung von Ihnen auf das System übergeht. Tools mit dateibasierter Statusverfolgung sind die Ausnahme, nicht die Regel.
Kann ich Daten aus Dateien wiederherstellen, die während der Batch-Verarbeitung übersprungen wurden?
Ja, in den meisten Fällen. Dateien, die beim Hochladen oder Verarbeiten fehlschlagen, bleiben in der Regel unberührt auf Ihrem lokalen Rechner. Führen Sie sie durch die Checkliste vor dem Hochladen, beheben Sie das identifizierte Problem (Formatkonvertierung, Umbenennung, Aufteilung) und verarbeiten Sie sie einzeln oder in einem kleineren Batch.
Beeinflusst die Dateireihenfolge im Upload-Dialog, welche Dateien übersprungen werden?
In den meisten Systemen nicht, aber es kann so erscheinen. Wenn Sie 30 Dateien hochladen und die Verarbeitungswarteschlange sie in der Reihenfolge des Eingangs verarbeitet, sind die später eintreffenden Dateien eher von kumulativen Timeouts betroffen. Die Lösung ist die Reduzierung der Batch-Größe, nicht die Neuanordnung der Dateireihenfolge.
Wie erkenne ich, ob eine Datei vor dem Hochladen beschädigt ist?
Versuchen Sie, sie in der zugehörigen Anwendung zu öffnen – Adobe Acrobat für PDFs, ein Bildbetrachter für Bilder. Wenn sie ohne Warnung geöffnet wird, ist sie wahrscheinlich intakt. Für die Batch-Überprüfung können Tools wie pdfinfo (Linux) oder Adobe Acrobats „Preflight“-Tool mehrere PDFs auf strukturelle Integrität prüfen. Ein schnelles erneutes Speichern verdächtiger Dateien behebt in der Regel latente Beschädigungen.
Wie viele Dateien sollte ich maximal in einen einzelnen Batch aufnehmen?
Die meisten Tools unterstützen 30–50 Dateien pro Batch, aber die Zuverlässigkeit ist bei 10–15 am höchsten. Kleinere Batches werden schneller abgeschlossen, erleichtern das Isolieren problematischer Dateien und verringern die Auswirkungen von Parallelitätsdrosselung und kumulativen Timeouts. Die Batch-Größe ist ein Kompromiss für die Zuverlässigkeit, kein Feature-Limit.
Nicht raten — diagnostizieren
Eine fehlende Datei in einer Batch-Extraktion ist selten ein Rätsel, wenn man weiß, wo man suchen muss. Upload-Fehler machen etwa 60 % der Fälle aus — nicht unterstützte Formate, Korruption und Dateinamen-Probleme. Verarbeitungsfehler — Parallelitätsabbrüche, Timeouts, Konflikte durch gemischte Typen — machen weitere 30 % aus. Zusammenführungsauslassungen, die leiseste Fehlerart, machen die restlichen 10 % aus. Jeder hat eine Lösung, und die meisten dieser Lösungen dauern weniger als eine Minute.
Die 8 Dateien, die Sie im letzten Batch verloren haben, sind mit ziemlicher Sicherheit noch auf Ihrem Rechner, unberührt und bereit zur Verarbeitung, sobald Sie das spezifische Hindernis identifizieren, das sie nicht passieren konnten. Der Unterschied zwischen „Batch-Extraktion übersieht Dateien" und „Batch-Extraktion funktioniert zuverlässig" liegt darin, zu wissen, welches Hindernis versagte und warum.
Führen Sie die Checkliste für Ihren nächsten Batch durch. Sie werden immer noch 30 Dateien eingeben — aber Sie erhalten 30 Zeilen als Ausgabe.
Keine Anmeldung nötig · Funktioniert mit JPG, PNG und PDF