Vision KI · Gescannte, native & gemischte PDFs

PDF-Datenextraktionssoftware – PDF-Dokumente in Excel, CSV und strukturierte Daten umwandeln – ohne Vorlagen oder manuelles Kopieren

Die meisten PDF-Extraktionstools beherrschen genau einen PDF-Typ – nativen Text, gescannte Bilder oder Formulare – und versagen bei den anderen beiden stillschweigend. Dieses hier liest jede PDF-Seite so, wie ein Mensch es tut: als visuelles Ganzes. Gescannte Kontoauszüge, native PDF-Rechnungen, Handyfotos von Quittungen und gemischte Berichte durchlaufen dieselbe Pipeline. Geben Sie die gewünschten Spaltennamen ein und erhalten Sie in 5–10 Sekunden pro Seite strukturiertes Excel.

5–10 s pro Seite · Bis zu 99 % Feldergenauigkeit bei gedrucktem Text · PDF / JPG / PNG / WebP · Gescannte, native & gemischte PDFs in einem Durchgang

Gescannte & native PDFs
Benutzerdefinierte Spalten
Mehrere Formate
XLSX / CSV / JSON

Was Sie aus jedem PDF extrahieren können – in benannte Spalten einer Tabelle

Geben Sie die gewünschten Spaltennamen ein – Rechnungsnummer, Fälligkeitsdatum, Lieferant, Gesamtbetrag – und die Vision-KI findet diese Werte auf jeder Seite, indem sie deren Bedeutung versteht, nicht deren Position. Das ist Benutzerdefinierte Spaltenextraktion: Sie definieren das Ausgabeschema einmal, und die KI füllt diese Spalten aus gescannten PDFs, nativen PDFs, Handyfotos und Screenshots – alle im selben Durchlauf. Dieselben Spaltendefinitionen funktionieren bei Rechnungen, Kontoauszügen, Bestellungen, Formularen und Verträgen – ohne Konfiguration pro Format.

Belegdatum
Referenz / Rechnungsnr.
Lieferant / Unternehmen
Betrag / Gesamtsumme
Steuerbetrag / MwSt.
Positionsbeschreibung
Menge / Einzelpreis
Fälligkeitsdatum / Zahlungsbedingungen
Bestellnummer / Kontonummer
Adresse / Lieferadresse
Kategorie / Dokumententyp
Beliebiges benutzerdefiniertes Feld

Sie geben die Spaltennamen einmal ein – dasselbe Schema extrahiert Daten aus Rechnungen, Kontoauszügen, Bestellungen, Verträgen und Formularen im selben Durchlauf. Keine Konfiguration pro Dokumenttyp erforderlich.

PDF ist kein Formatproblem – es ist ein Strukturproblem

Eine PDF-Datei ist ein Container. Was darin steckt, kann eine von drei grundlegend verschiedenen Arten sein: ein gescanntes Bild ohne Textebene, nativer digitaler Text, der zwar auswählbar ist, aber keine semantische Struktur aufweist, oder eine Mischung aus beidem – auswählbarer Text auf Seite eins, ein eingebetteter Scan auf Seite zwei, handschriftliche Anmerkungen auf Seite drei. Die meisten PDF-Extraktionstools sind für genau einen dieser Typen ausgelegt und versagen bei den anderen beiden stillschweigend. Eine Tabellenextraktionsbibliothek wie Tabula funktioniert bei nativen PDFs, liefert aber bei gescannten Seiten keine Ergebnisse. Eine OCR-Engine liest gescannten Text, aber flacht native PDF-Tabellen zu wirren Absätzen ab. Das von Ihnen gewählte Tool bestimmt, welche PDFs in Ihrem Workflow erfolgreich sind und welche scheitern – oft ohne Vorwarnung. Vision AI verarbeitet alle drei Typen in derselben Pipeline, da es die Seite als visuelles Ganzes liest – so wie gescannte, native und gemischte PDFs für das menschliche Auge alle identisch aussehen.

Warum die meisten PDF-Extraktionen an verschiedenen Dokumenttypen scheitern

01

Tabellenextraktionstools liefern bei gescannten PDFs gar keine Ergebnisse – und zwar ohne Vorwarnung. Tools wie Tabula, Camelot und pdfplumber lesen Textpositionen aus der internen Textebene der PDF-Datei. Wenn diese Textebene nicht existiert – wie bei jedem gescannten Dokument – geben sie nichts zurück. Kein Fehler, keine Warnung, nur eine leere Zeile. Ein Python-Entwickler auf r/Python hat die Realität dokumentiert: Gescannte PDFs „geben einen leeren String (oder schlimmer, überflüssige Leerzeichen) zurück, ohne eine Ausnahme auszulösen." Die Extraktion schlägt stillschweigend fehl, und das fällt erst beim Öffnen der Ausgabedatei auf.

02

OCR-Engines lesen Zeichen, zerstören aber die Tabellenstruktur nativer PDFs. Herkömmliche OCR wandelt Dokumentbilder in einen Strom erkannter Zeichen um. Bei einem nativen PDF mit Tabelle ist der OCR-Schritt unnötig – der Text ist bereits maschinenlesbar –, aber das Ergebnis ist schlechter als nichts zu tun: Die Zeilen-Spalten-Struktur der Tabelle kollabiert zu einem formlosen Textabsatz. Nutzer auf r/datasets beschrieben es präzise: „Tabula liest den Text nicht und Omnipage liest die Spalten nicht.“ Zwei Werkzeuge, zwei verschiedene Fehlermodi – weil jedes für einen PDF-Typ und nur einen gebaut wurde.

03

Gemischte PDFs – auf manchen Seiten auswählbarer Text, auf anderen eingescannte Bilder – blockieren beide Ansätze gleichzeitig. Ein Vertrag, der mit digitaler Vorlage beginnt, aber eine eingescannte Unterschriftenseite anhängt. Ein Kontoauszug als natives PDF mit einem eingescannten Scheckstorno als Anhang. Ein Bericht, bei dem die Seiten 1–3 nativer Text und die Seiten 4–6 eingescannte Bilder sind. Die einzige Möglichkeit, diese in einer traditionellen Pipeline zu verarbeiten, ist, das Dokument manuell nach Seitentyp zu trennen, jeden Teil mit einem anderen Tool zu bearbeiten und die Ausgaben wieder zusammenzuführen – die Arbeit des Tools erledigt man also, bevor es überhaupt startet. Ein r/productivity-Nutzer beschrieb die kumulierten Kosten: "Wir bekommen täglich eine wilde Mischung aus Dokumenten – PDFs, eingescannte Verträge, Excel-Formulare." Allein der Vorverarbeitungsaufwand verschlingt Stunden, bevor überhaupt Daten in einer Tabelle landen.

Wie Vision AI jedes PDF gleich liest – unabhängig vom Typ

01

Ein Vision-Language-Modell liest die Seite als visuelles Ganzes – Textebene, Bildebene, Handschrift, alles auf einmal. Es gibt keinen separaten Textextraktionsschritt für native PDFs, keinen separaten OCR-Schritt für gescannte Seiten, kein klassifikationsbasiertes Routing, das entscheidet, welche Pipeline verwendet wird. Das Modell sieht das Dokument so, wie Sie es sehen – als eine einzige visuelle Eingabe – und verarbeitet gleichzeitig gedruckten Text, Tabellen, handschriftliche Anmerkungen, Kontrollkästchen und Formularfelder. Ein gescannter Kontoauszug ohne Textebene, eine native PDF-Rechnung mit auswählbarem, aber unstrukturiertem Text und ein Handyfoto einer handschriftlichen Quittung durchlaufen dieselbe Verarbeitungspipeline und liefern dieselbe strukturierte Ausgabe. Der Ansatz verarbeitet gemischte PDFs – Dokumente, bei denen einige Seiten gescannt und andere nativ sind – ohne Vorverarbeitung, da das Modell jede Seite unabhängig als visuelle Eingabe liest.

02

Sie benennen die Spalten – die KI befüllt sie, indem sie die Bedeutung jedes Feldes versteht, nicht seine Position. Geben Sie Lieferant, Datum, Betrag, Referenznr. ein – diese werden zu den exakten Kopfzeilen Ihrer Ausgabetabelle. Die KI findet jeden Wert durch semantisches Verständnis: Ein Datum ist ein Datum, egal ob es als „15.03.2026“, „15. März 2026“ oder „2026-03-15“ formatiert ist und ob es oben rechts, in der Seitenmitte oder in einem Absatz versteckt steht. Über die direkte Extraktion hinaus können Sie Berechnete Spalten hinzufügen – Berechnungen während der Extraktion, wie z. B. Zeilensumme (Menge × Einzelpreis), die berechnete Ergebnisse direkt ausgeben – sowie Abgeleitete Spalten – KI-Klassifizierung basierend auf dem Dokumentinhalt, wie z. B. Kategorie (Optionen: Verpflegung/Transport/Büro), die jedes Dokument liest und die richtige Bezeichnung zuweist, auch wenn kein Feld „Kategorie“ auf der Seite erscheint.

03

Kein Einrichtungsaufwand pro Format – ein einziges Spaltenschema gilt für alle Dokumenttypen, PDF-Varianten und Lieferantenlayouts. Ein neuer Lieferant sendet eine Rechnung in einem noch nie gesehenen Format – sie funktioniert beim ersten Hochladen. Sie fügen Kontoauszüge zu einem Batch hinzu, der bereits Rechnungen und Belege enthält – gleiche Spaltendefinitionen, keine neue Konfiguration. Die lästige Vorlagenpflege, die bei zonaler OCR und regelbasierten Tools anfällt – ein Setup pro Lieferant, ein Update pro Layoutänderung – entfällt, weil die KI Felder semantisch versteht, statt Positionskoordinaten abzugleichen. Nutzer in r/BusinessIntelligence beschreiben durchgängig „100 verschiedene Vorlagen“ als den zentralen Engpass in ihren PDF-Extraktions-Workflows. Der Vision-KI-Ansatz umgeht diesen Engpass vollständig: Es gibt keine Vorlagen zu erstellen, zu pflegen oder die kaputtgehen.

Der Unterschied liegt nicht in Genauigkeitsmargen – sondern darin, ob Ihr Tool alle Ihre PDFs verarbeitet oder nur einige. Ein gescannter Kontoauszug und eine native PDF-Rechnung sind beide „PDF-Dateien". Ihre Extraktionssoftware sollte nicht unterscheiden müssen.

So funktioniert's — Von einer Mischung aus PDFs zu einer strukturierten Tabelle

Wenn Sie PDFs aus verschiedenen Quellen erhalten — einige nativ, einige gescannt, einige gemischt — und bestimmte Felder in strukturierten Zeilen statt in rohen Textdumps benötigen, finden Sie hier den vollständigen Workflow.

1

Beliebige PDFs hochladen – gescannt, nativ oder gemischt, alles in einem Durchgang

Sie haben einen Ordner mit Lieferantenrechnungen (native PDFs aus E-Mails), Kontoauszügen (gescannte PDFs vom Scanner) und Spesenbelegen (als PDF gespeicherte Handyfotos). Laden Sie alles auf einmal hoch – gemischte Formate, gemischte Dokumenttypen, gemischte PDF-Strukturen. Keine Vorverarbeitung, keine Seitentyperkennung, keine Aufteilung in separate Pipelines. Wenn die Dokumente von anderen Personen stammen – Kunden, die Rechnungen senden, Teammitglieder, die Spesenbelege einreichen – können Sie einen Sammellink erstellen: eine teilbare URL, über die Uploader Dateien zu Ihrer Verarbeitungswarteschlange hinzufügen, ohne ein Konto anzulegen. Die Dateien landen in Ihrem Dashboard und sind bereit zur Extraktion.

PDF / JPG / PNG / WebP / Screenshots – eine Pipeline, alle Formate, alle PDF-Typen.

2

Benennen Sie die benötigten Spalten – ein Schema für den gesamten Stapel

Geben Sie die Spaltennamen in die Oberfläche ein — Lieferant, Datum, Rechnungsnr., Betrag, Steuer, Fällig am. Diese werden exakt zu den Kopfzeilen Ihrer Ausgabetabelle. Die Bild-KI findet jeden Wert auf jeder Seite, indem sie dessen Bedeutung versteht – eine native PDF-Rechnung von Lieferant A und eine gescannte PDF-Rechnung von Lieferant B mit völlig unterschiedlichen Layouts füllen dieselben Spalten. Die Spaltendefinitionen gelten für jedes Dokument im Stapel, unabhängig von PDF-Typ, Format oder Layout.

Einheitliches Schema für alle Dokumente – keine Einrichtung pro Lieferant oder Format.

3

Strukturierte Daten herunterladen – jedes Dokument wird zu einer Zeile, jeder Spaltenname zum Spaltenkopf

Jedes Dokument ergibt eine Zeile. Die Spalten entsprechen exakt Ihren Benennungen. Nicht gefundene Felder bleiben leer – keine Schätzwerte, kein Batch-Abbruch. Export als XLSX, CSV oder JSON. Daten werden bei der Extraktion standardisiert – keine Inkonsistenzen wie "03/15/26" vs. "15-03-2026" aus verschiedenen PDF-Quellen. Beträge und Referenznummern sind einheitlich formatiert. Die Tabelle ist sofort bereit für Pivot-Tabellen, ERP-Import oder Analyse – kein manuelles Bereinigen fragmentierter Layout-Konvertierungen, kein "Text in Spalten"-Assistent, kein Kopieren aus rohem OCR-Text. Die Verarbeitung dauert 5–10 Sekunden pro Seite (im Vergleich zu ~3 Minuten manueller Dateneingabe pro Seite).

5–10 Sekunden pro Seite. Standardisierte Felder, bereit für die Analyse.

Der Workflow, den herkömmliche Tools erzwingen — PDF-Typ erkennen, an die richtige Pipeline weiterleiten, Extraktion durchführen, Ergebnisse verschiedener Tools manuell abgleichen — wird auf einen einzigen Schritt reduziert. Hochladen, Spalten benennen, strukturierte Daten herunterladen.

Wann KI-gestützte PDF-Extraktion ideal ist – und wann Vorsicht geboten ist

Jeder Ansatz zur Datenextraktion hat seine Stärken. Hier zeigt sich, wann das Auslesen von PDFs als visuelle Seiten die besten Ergebnisse liefert – und wo die Erwartungen unabhängig vom PDF-Typ realistisch bleiben sollten.

Ideale Anwendungsfälle

Gedruckter Text auf sauberen Dokumenten ab 150 DPI – gescannt oder nativ, gleiche Genauigkeit. Ob der Text aus einer digitalen Textebene (nativer PDF) oder aus Pixeln eines Scans stammt – die feldspezifische Genauigkeit bei Standard-Geschäftsfeldern wie Lieferantenname, Datum, Betrag und Referenznummer erreicht bis zu 99 %. Wenn Sie den Text mit Ihren Augen klar lesen können, extrahiert die Bild-KI ihn korrekt.

Gemischte Stapel mit Dokumenten, die sich in PDF-Typ, Layout und Quelle unterscheiden. Native PDFs von einem Lieferanten, gescannte PDFs von einem anderen, per Handy-Foto erstellte PDFs von Außendienstmitarbeitern – alle zusammen hochgeladen und über dasselbe Spaltenschema verarbeitet. Keine Vorsortierung nach Typ, kein klassifikationsbasiertes Routing, keine separaten Ausgabedateien zum Zusammenführen.

Feld-Wert-Layouts, bei denen erkennbare Bezeichnungen neben ihren Daten stehen. Rechnungen, Bestellungen, Kontoauszüge, Versicherungszertifikate und Formulare, bei denen Werte in der Nähe beschrifteter Felder erscheinen – „Rechnungsnr.", „Gesamtbetrag", „Ausstellungsdatum" – werden zuverlässig extrahiert, weil die KI die Beziehung zwischen Bezeichnung und Wert semantisch versteht, nicht über feste Koordinaten.

Workflows, bei denen Berechnungen oder Klassifikationen nach der Extraktion zusätzliche Kosten verursachen. Berechnete Spalten führen Berechnungen während der Extraktion durch – kein separater Excel-Formelschritt nötig. Inferierte Spalten klassifizieren Dokumente während der Extraktion anhand des Inhalts – keine manuelle Nachbearbeitung. Ein einziger Durchlauf liefert kategorisierte, berechnete Ausgaben, die direkt in Ihr ERP oder Buchhaltungssystem übernommen werden können.

Vorsicht geboten bei

Stark handschriftliche Dokumente – insbesondere in Schreibschrift – verringern die Felderkennung unabhängig vom PDF-Typ. Saubere Blockschrift auf klaren Formularen erreicht 90–95 % Genauigkeit, aber dichte Schreibschrift, helle Bleistiftmarkierungen, überlappende Anmerkungen und verblasstes Thermopapier senken die Genauigkeit auf 75–85 %. Planen Sie bei überwiegend handschriftlichen Arbeitsabläufen eine manuelle Stichprobenprüfung der extrahierten Felder ein – das Vision-Modell verarbeitet Handschrift besser als herkömmliche OCR (die oft eine separate Handschrift-Engine benötigt), ersetzt aber bei kritischen Finanzanwendungsfällen keine manuelle Prüfung.

Rahmenlose, mehrspaltige Tabellen mit unregelmäßigen Abständen können Positionsdaten falsch zuordnen. Wenn Tabellenzellen keine visuelle Trennung aufweisen – keine Gitterlinien, kein alternierender Zeilenhintergrund, dichter Text in schmalen Spalten – kann die Zuordnung von Zeilen zu Spalten bei extrahierten Positionsdaten verloren gehen. Eine klare visuelle Struktur (Rahmen, Leerräume, konsistente Ausrichtung) verbessert die Tabellenextraktion bei allen PDF-Typen.

Niedrig aufgelöstes Quellmaterial unter 150 DPI beeinträchtigt die Erkennung. Dokumente in Faxqualität, stark komprimierte JPEGs als PDFs sowie aus der Ferne aufgenommene Fotos mit verpixeltem Text liefern geringere Genauigkeit – dies gilt gleichermaßen für gescannte und native PDFs, wenn das native PDF ein niedrig aufgelöstes Bild statt tatsächlicher Textdaten enthält. Scannen Sie mit 300 DPI und achten Sie bei Handyfotos darauf, dass der Text den Großteil des Bildes ausfüllt.

Werte in unbeschrifteten Absätzen ohne umgebende Feldbezeichnungen. Wenn die benötigte Zahl in einem Satz ohne nahe Bezeichnung eingebettet ist – z. B. „die Gesamtgegenleistung darf vierhunderttausend Dollar nicht überschreiten“ in einer dichten Vertragsklausel – kann die KI sie möglicherweise nicht zuverlässig als einzelnes Feld extrahieren. Beschriftete Feld-Wert-Layouts liefern die höchste Genauigkeit. Dies ist eine Einschränkung der Dokumentenstruktur, nicht des PDF-Typs.

Häufig gestellte Fragen

Was ist der Unterschied zwischen der Datenextraktion aus einem gescannten PDF und einem nativen PDF – und verarbeitet dieses Tool beide?

Ein natives PDF enthält eine eingebettete Textebene – Standardtools können Text direkt auswählen und kopieren, aber dieser Text hat keine semantische Struktur, die verrät, welcher Fragment der Lieferantenname und welcher der Rechnungsbetrag ist. Ein gescanntes PDF ist eine Fotografie eines Dokuments ohne Textebene – nur Pixel. Ein gemischtes PDF enthält beides auf verschiedenen Seiten. Herkömmliche Tools verarbeiten in der Regel genau einen Typ: Tabellenextraktionsbibliotheken wie Tabula und Camelot funktionieren mit nativen PDFs, scheitern aber an gescannten Seiten (geben oft ohne Fehlermeldung nichts zurück), während OCR-Engines gescannten Text lesen, aber native PDF-Tabellenstrukturen in flache, unstrukturierte Absätze zerlegen. ImageToTable.ai verwendet ein visuelles Sprachmodell, das jede PDF-Seite visuell liest – es unterscheidet nicht zwischen Text aus einer digitalen Ebene und Text aus Pixeln eines Scans. Ein gescannter Kontoauszug ohne Textebene, eine native PDF-Rechnung und ein Handyfoto einer Quittung können im selben Batch mit denselben Spaltendefinitionen verarbeitet werden. Gemischte PDFs, bei denen einige Seiten gescannt und andere nativ sind, werden ohne Seitentyperkennung oder -weiterleitung verarbeitet – jede Seite wird unabhängig als visuelle Eingabe gelesen.

Muss ich für jedes PDF-Format Vorlagen einrichten oder Extraktionsregeln trainieren?

Nein. Vorlagenbasierte PDF-Extraktion erfordert das Zeichnen von Zonen oder das Schreiben von Parsing-Regeln für jedes Dokumentenlayout – einmal pro Lieferantenformat, ein Update bei jeder Layoutänderung. Maschinelle Lernverfahren benötigen 20–50 beschriftete Musterdokumente, um ein brauchbares Modell pro Dokumenttyp zu trainieren. ImageToTable.ai nutzt die benutzerdefinierte Spaltenextraktion: Sie definieren die Ausgabespalten einmal – Lieferant, Datum, Betrag, Referenznr., Steuer – und die Bild-KI findet diese Werte in jedem PDF, indem sie deren semantische Bedeutung versteht, nicht ihre Position auf der Seite. Eine neue Lieferantenrechnung in einem dem System unbekannten Format funktioniert beim ersten Hochladen. Ein PDF mit gemischten gescannten und nativen Textseiten wird ohne Neukonfiguration verarbeitet. Dieselben Spaltendefinitionen gelten für alle Dokumenttypen – Rechnungen, Kontoauszüge, Bestellungen, Formulare, Verträge – im selben Batch, ohne Einrichtung pro Format.

Welche Genauigkeit ist zu erwarten – und variiert sie zwischen gescannten, nativen und gemischten PDFs?

Bei klar gedrucktem Text auf Dokumenten mit 150+ DPI und erkennbaren Feldbezeichnungen erreicht die feldspezifische Genauigkeit bei Standard-Geschäftsfeldern – Lieferantennamen, Daten, Beträge, Referenznummern, Steuerbeträge – bis zu 99 %. Dies gilt sowohl für gescannte als auch native PDFs, da das visuelle Modell die Seite in beiden Fällen visuell liest. Die Genauigkeit sinkt bei: stark handschriftlichen Dokumenten, insbesondere in Schreibschrift (75–85 %), stark verzerrten oder niedrig aufgelösten Scans unter 150 DPI, Dokumenten mit dichten Wasserzeichen oder starkem Hintergrundrauschen sowie randlosen mehrspaltigen Tabellen ohne Gitterlinien oder Zeilentrenner. Eine praktische Regel, die für alle PDF-Typen gilt: Wenn Sie einen Feldwert mit eigenen Augen klar im Dokumentbild lesen können, extrahiert die visuelle KI ihn wahrscheinlich korrekt. Bei geschäftskritischen Finanzdaten – Beträge, Summen, Steuerbeträge – bleibt die stichprobenartige Überprüfung extrahierter Werte anhand der Quelldokumente eine bewährte Praxis, unabhängig vom verwendeten Extraktionstool oder PDF-Typ.

Kann ich bestimmte Felder wie Rechnungsnummer und Gesamtbetrag extrahieren, anstatt das gesamte PDF in Excel zu überführen?

Ja. Genau das ist der Kern der benutzerdefinierten Spaltenextraktion. Sie geben die gewünschten Spaltennamen ein – Rechnungsnummer, Lieferantenname, Positionenbeschreibung, Betrag, Fälligkeitsdatum – und die KI extrahiert nur diese Werte aus jeder PDF-Seite. Die von Ihnen eingegebenen Spaltennamen werden exakt zu den Überschriften Ihrer Ausgabetabelle. Dies unterscheidet sich grundlegend von Layout-Konvertern, die die gesamte visuelle Struktur eines PDFs in Excel-Zellen übertragen – mit verbundenen Zellen, zerbrochenen Zeilen, Header-Fragmenten und allem – und Sie zwingen, Zeit mit dem Löschen unerwünschter Spalten und Zeilen zu verbringen. Es unterscheidet sich auch von OCR-Tools, die alle erkannten Texte als flachen Block extrahieren und Sie manuell identifizieren lassen, welches Fragment in welche Tabellenspalte gehört. Sie definieren die Ausgabeform vor der Extraktion, nicht danach.

Was passiert, wenn mein PDF eine Mischung aus gedrucktem Text, Handschrift und eingebetteten Bildern enthält?

Die visuelle KI verarbeitet alle visuellen Inhalte auf der Seite gleichzeitig – gedruckter Text, saubere Blockschrift, Tabellen, angekreuzte/umkreiste Kästchen, Stempel, Unterschriften und eingebettete Bilder durchlaufen denselben Verarbeitungsdurchlauf. Dies unterscheidet sich deutlich von herkömmlichen OCR-Pipelines, die in der Regel eine separate Handschrifterkennung erfordern und häufig versagen, wenn gedruckte und handschriftliche Inhalte auf derselben Seite erscheinen. Saubere Blockschrift auf übersichtlichen Formularen erreicht eine Genauigkeit von 90–95 %. Dichte Schreibschrift, leichte Bleistiftmarkierungen, verschmierte Anmerkungen und Handschrift, die mit gedrucktem Text überlappt, verringern die Genauigkeit in diesen spezifischen Feldern und sollten manuell überprüft werden. Bei eingebetteten Bildern – Logos, in PDFs eingebettete Fotos, gescannte Anhänge, die nativen PDF-Seiten hinzugefügt wurden – konzentriert sich die KI auf das Extrahieren von Text und Datenfeldern aus der Seite und analysiert den Bildinhalt nicht über die Erkennung von Text im Bild hinaus. Der entscheidende Vorteil ist, dass Seiten mit gemischten Inhalten nicht in separate Verarbeitungspipelines aufgeteilt werden müssen – ein Durchlauf verarbeitet alles Sichtbare auf der Seite, und Sie überprüfen Felder, die mit niedrigerer Konfidenz markiert wurden.

📮 contact email: [email protected]