So konvertieren Sie ein gescanntes PDF in Excel: Eine vollständige Schritt-für-Schritt-Anleitung

Nach dieser Anleitung haben Sie eine saubere Excel-Datei aus einem gescannten PDF – kein verstreuter Text in Zellen, sondern strukturierte Daten, bei denen jede Spalte die richtigen Werte enthält. Der Unterschied zwischen diesen beiden Ergebnissen liegt nicht nur in der Wahl des Tools. Es geht darum, zu wissen, um welche Art von PDF es sich handelt, die richtige Extraktionsmethode zu wählen und genau zu verstehen, welche Art von Bereinigung die Ausgabe benötigt, bevor sie nutzbar ist. Wenn Sie nicht genau wissen, was OCR ist oder wie es funktioniert, finden Sie in unseren Artikeln Was ist OCR? und Wie OCR funktioniert die Grundlagen. Diese Anleitung setzt voraus, dass Sie bereit sind, mit der Konvertierung zu beginnen.

Bevor Sie beginnen – Warum Ihr PDF-Typ alles entscheidet

Der häufigste Grund, warum „PDF zu Excel“ scheitert, liegt nicht am Tool. Sondern daran, dass die Person, die die Datei konvertieren möchte, nicht erkennt, dass nicht alle PDFs gleich sind. Es gibt zwei grundlegend verschiedene PDF-Typen, die völlig unterschiedliche Konvertierungsmethoden erfordern:

Merkmal	Natürliches (digitales) PDF	Gescanntes (Bild-)PDF
Erstellung	Gespeichert aus Word, Excel oder Buchhaltungssoftware	Gedruckt und dann gescannt oder als Bild gespeichert
Enthält Text?	Ja – auswählbarer, durchsuchbarer Text	Nein – nur ein Foto der Seite
Text kopierbar?	Ja – Text markieren und Strg+C	Nein – Auswahl ergibt ein Feld, keine Wörter
Dateigröße (typisch)	50–200 KB pro Seite	500–2.000 KB pro Seite
Beste Konvertierungsmethode	Direkter Parser (keine OCR nötig)	OCR oder KI-Extraktion

Wenn Sie ein Tool, das nur natürliche PDFs verarbeitet, auf ein gescanntes Dokument anwenden – oder schlimmer noch, versuchen, aus einer gescannten Datei zu kopieren und einzufügen – erhalten Sie nichts und gehen davon aus, dass das Tool defekt ist. In Wirklichkeit haben Sie den Diagnoseschritt übersprungen. Der Rest dieser Anleitung führt Sie durch einen Prozess, der unabhängig davon funktioniert, welchen PDF-Typ Sie haben.

Schritt 1 — PDF-Typ prüfen: Gescannt oder nativ?

Text mit der Maus auswählen

Öffnen Sie das PDF und ziehen Sie den Cursor über eine Textzeile. Wenn der Text markiert wird (wie auf einer Webseite), haben Sie ein natives PDF. Können Sie nur ein rechteckiges Feld aufziehen, ist das PDF gescannt – was Sie sehen, ist ein Bild, kein Text.

Strg+F drücken und nach einem häufigen Wort suchen

Suchen Sie nach „der", „Rechnung" oder einfach „a". Findet die Suche Ergebnisse, enthält das PDF auswählbaren Text. Findet die Suche nichts, ist das PDF ein gescanntes Bild – es existiert keine Textebene.

Dateigröße prüfen

Klicken Sie mit der rechten Maustaste auf die Datei und prüfen Sie die Größe. Ein 5-seitiges natives PDF mit Text ist meist unter 300 KB groß. Ein 5-seitiges gescanntes PDF mit Bildern derselben Seiten hat 3–10 MB. Gescannte Dateien sind 10–50 Mal größer, da jede Seite ein komprimiertes Bild und keine Textdaten ist.

Falls Ihr PDF ein nativer Text-PDF ist, kann Excel es direkt ohne OCR importieren. Gehen Sie in Excel (365 oder 2021+) zu Daten > Daten abrufen > Aus Datei > Aus PDF, wählen Sie Ihre Datei, die gewünschte Tabelle aus und klicken Sie auf Laden. Das funktioniert gut für textbasierte PDFs aus Buchhaltungssystemen oder Textverarbeitungen.

Falls Ihr PDF ein gescanntes Bild ist – und wenn Sie diese Anleitung lesen, ist es das mit hoher Wahrscheinlichkeit – benötigen Sie OCR (Optical Character Recognition) oder KI-gestützte Extraktion. Darum geht es im Rest dieser Anleitung.

Schritt 2 — Methode wählen: Traditionelle OCR oder KI-Extraktion?

Sobald Sie bestätigt haben, dass es sich um ein gescanntes PDF handelt, stellt sich die Frage nach der passenden Methode. Es gibt drei Hauptwege – der richtige hängt davon ab, wie das Ergebnis aussehen soll.

Wenn Sie den Text in beliebigem Format benötigen – zum Lesen, Durchsuchen oder Einfügen in ein Dokument – reicht ein kostenloses Online-OCR-Tool wie Google Drive OCR oder PDF24. Diese Tools extrahieren die Wörter aus dem Bild und geben sie als reinen Text oder durchsuchbares PDF aus.

Wenn Sie die Daten in strukturierten Spalten benötigen – Rechnungsnummern in einer Spalte, Beträge in einer anderen, Daten in einer dritten – brauchen Sie ein Extraktionstool, das die Dokumentstruktur versteht. Das ist der entscheidende Unterschied zwischen OCR und KI-Extraktion.

Herkömmliche OCR liest Zeichen. Sie kann erkennen, dass die Zeichenfolge „1.250,00“ auf einer Seite vorkommt. Sie weiß aber nicht, ob diese Zeichenfolge der Rechnungsbetrag, ein Einzelpostenpreis oder eine Seitenzahl ist. Ein KI-Extraktionstool hingegen versteht, was jedes Datenelement im Kontext bedeutet. Sie geben die gewünschten Spalten vor – „Rechnungsnummer“, „Datum“, „Gesamtbetrag“ – und das Tool findet diese Werte auf allen Seiten.

Für einen detaillierten Vergleich kostenloser OCR-Tools aller Kategorien, einschließlich Open-Source-Optionen wie Tesseract und kostenloser Stufen kommerzieller Plattformen, finden Sie in unserem Leitfaden zur besten kostenlosen OCR-Software 2026 elf Optionen mit ehrlichen Genauigkeitsbewertungen und praktischen Grenzen.

Schneller Tool-Vergleich

Methode	Am besten geeignet für	Ausgabequalität	Einrichtung
Adobe Acrobat OCR	Durchsuchbare PDFs, Einzeldatei-Bearbeitung	Gute Texterkennung, gemischte Tabellenstruktur	Desktop-App erforderlich (19,99 €/Monat)
Google Drive OCR	Schnelle Textextraktion, mehrsprachig	Nur Text, Layout zerstört	Kostenlos, Google-Konto erforderlich
Tesseract + Python	Entwickler mit Bedarf an lokaler Verarbeitung	Guter Text, keine Tabellenstruktur	Kommandozeile, technische Einrichtung
KI-Extraktion	Strukturierte Felder in Excel-Spalten	Saubere Tabellenausgabe, semantisches Verständnis	Webbasiert, keine Installation

Schritt 3 — OCR des gescannten PDFs mit KI-Extraktion

In dieser Anleitung verwenden wir einen KI-Extraktionsansatz, da er die brauchbarsten Excel-Ergebnisse aus gescannten PDFs liefert – besonders wenn das PDF strukturierte Daten wie Rechnungen, Bestellungen oder Kontoauszüge enthält. Der entscheidende Unterschied zur herkömmlichen OCR ist, dass die KI das Dokument semantisch liest, nicht Zeichen für Zeichen. Sie erkennt nicht nur den Text „15. März 2026“, sondern versteht, dass es sich um ein Datum handelt, und trägt es in die Spalte „Datum“ ein.

Sie können den Prozess gleich hier mit einem Beispieldokument ausprobieren. Die Demo unten ist für die Rechnungsextraktion vorkonfiguriert. Laden Sie ein gescanntes Rechnungs-PDF oder -Bild hoch und sehen Sie in Echtzeit, was die KI zurückgibt:

JPG/PNG/PDF KI-Extraktion

Dateien werden sicher verarbeitet und nicht gespeichert.

Der KI-Extraktions-Workflow

Gescanntes PDF hochladen

Ziehen Sie die Datei per Drag & Drop in den Upload-Bereich. Die meisten KI-Tools akzeptieren PDF, JPG und PNG. Eine gescannte Rechnung mit 2–5 Seiten benötigt etwa gleich viel Zeit wie eine einzelne Seite.

Ausgabespalten definieren

Geben Sie die Spaltennamen für Ihre Excel-Ausgabe ein – „Rechnungsnummer“, „Datum“, „Lieferantenname“, „Gesamtbetrag“, „Steuer“. Die KI liest jede Seite und fügt passende Daten in diese Spalten ein. Sie können die Spalten auch automatisch erkennen lassen.

Prüfen und exportieren

Das Tool verarbeitet alle Seiten und zeigt die Daten in einer strukturierten Tabelle an. Prüfen Sie die Ausgabe, nehmen Sie bei Bedarf kleine Korrekturen vor und exportieren Sie nach Excel. Der gesamte Vorgang dauert bei einer typischen Rechnung 5–10 Sekunden, verglichen mit etwa 3 Minuten pro Seite bei manueller Eingabe.

Im Vergleich zur herkömmlichen OCR hat dieser Ansatz einen entscheidenden Vorteil: Die Datentypen bleiben erhalten. Ihre Daten werden als Daten, Zahlen als Zahlen ausgegeben und jedes Feld landet in der dafür vorgesehenen Spalte. Herkömmliche OCR gibt alles als einen einzigen Textblock aus, den Sie dann manuell in Zellen aufteilen müssen.

Schritt 4 — Nach Excel exportieren

Sobald die KI Ihr gescanntes PDF verarbeitet hat, ist der Export nach Excel unkompliziert. Die meisten Extraktionstools bieten einen direkten Excel-Download (XLSX-Format) an. So unterscheiden sich die verschiedenen Ansätze:

Methode	Exportpfad	Excel-Bereitschaft
KI-Extraktionstool	Auf „Nach Excel exportieren“ klicken oder XLSX herunterladen	Hoch — Daten in Spalten, Kopfzeilen erhalten, eine Zeile pro Dokument
Adobe Acrobat OCR	Werkzeuge > PDF exportieren > Tabelle > Excel	Mittel — Tabellen erkannt, aber Layoutverschiebungen häufig
Google Drive OCR	In Google Docs öffnen > kopieren > in Excel einfügen	Niedrig — gesamte Formatierung verloren, Text läuft in eine Spalte
Online-OCR-Dienst	XLSX herunterladen (falls unterstützt)	Variabel — Genauigkeit und Layout-Erhaltung unterscheiden sich je nach Dienst

Eines haben die meisten Exportmethoden gemeinsam: Die Ausgabe muss vor der tatsächlichen Nutzung noch einmal überprüft werden. Kein Tool – auch keine KI-Extraktion – liefert bei jedem gescannten Dokument zu 100 % perfekte Ergebnisse. Die Frage ist nicht, ob eine Nachbearbeitung nötig ist, sondern wie viel.

Schritt 5 — Nachbereitung & Bereinigung (Ehrlicher Abschnitt)

Diesen Schritt überspringen die meisten Anleitungen. Die Realität: OCR-Ergebnisse aus gescannten PDFs – selbst von guten Tools – müssen bereinigt werden. Der Aufwand hängt von Scanqualität, Dokumentenkomplexität und dem verwendeten Tool ab. Bei einem klaren, gut ausgerichteten Scan einer einfachen Rechnung mit KI-Extraktion müssen Sie vielleicht weniger als 5 % der Zellen korrigieren. Bei einem niedrig aufgelösten Scan einer dichten Bestellung mit einem einfachen OCR-Tool kann es die Hälfte sein.

Die häufigsten Probleme und wie man sie behebt:

Zahlen als Text gespeichert

Excel zeigt ein grünes Dreieck in der Ecke und Formeln berechnen nicht. Wählen Sie die Spalte aus, verwenden Sie Daten > Text in Spalten und klicken Sie auf Fertig. Oder multiplizieren Sie alle Zellen mit 1 mithilfe einer Hilfsspalte: Geben Sie =A1*1 ein und kopieren Sie die Formel nach unten.

Überflüssige Leerzeichen und Zeilenumbrüche

OCR fügt oft Leerzeichen zwischen Zeichen ein oder behält unnötige Zeilenumbrüche aus dem Scan bei. Verwenden Sie =GLÄTTEN(A1), um überflüssige Leerzeichen zu entfernen, und =SÄUBERN(A1), um nicht druckbare Zeichen zu entfernen. Kopieren Sie die bereinigte Spalte und fügen Sie sie als Werte über die Originaldaten ein.

Verschmolzene oder geteilte Zellen durch Tabellenerkennungsfehler

Wenn Daten einer Zeile auf mehrere Zeilen verteilt sind oder Spalten falsch ausgerichtet sind, prüfen Sie, ob der ursprüngliche Scan beschnitten oder schief war. Mit Excels Text in Spalten (getrennt durch Komma, Leerzeichen oder benutzerdefiniertes Zeichen) können Sie Daten trennen, die in der falschen Zelle gelandet sind.

Inkonsistente Datumsformate

Eine Spalte kann „15.03.2026", „15. März 2026" und „15-Mär-26" aus verschiedenen Seiten enthalten. Verwenden Sie die Excel-Funktion DATWERT oder wenden Sie ein einheitliches Datumsformat auf die gesamte Spalte an: Rechtsklick > Zellen formatieren > Datum > gewünschtes Format auswählen.

Der Bereinigungsaufwand ist direkt proportional zur benötigten Struktur. Wenn Sie nur eine Spalte mit Gesamtbeträgen aus 50 Rechnungen benötigen, dauert eine schnelle Prüfung auf offensichtliche Fehler 5 Minuten. Wenn jede Position jeder Rechnung perfekt in eine standardisierte Vorlage passen muss, planen Sie 15–30 Minuten pro Stapel ein, bis Sie sich auf das Ausgabemuster Ihres Tools verlassen können.

Häufige Probleme beheben

„Excel: Daten abrufen > Aus PDF hat keine Tabellen gefunden“

Das passiert bei gescannten PDFs. Excels nativer PDF-Import funktioniert nur mit digitalen PDFs, die eine auswählbare Textebene haben. Gehen Sie zu Schritt 1 zurück, um Ihren PDF-Typ zu bestätigen, und nutzen Sie stattdessen ein OCR- oder KI-Extraktionstool.

„Der ausgegebene Text enthält zufällige Zeichen (O statt 0, l statt 1)“

OCR-Zeichenverwechslungen sind bei niedrig aufgelösten Scans häufig. Suchen und ersetzen Sie in Excel nach bekannten Fehlermustern. Wenn Sie regelmäßig ähnliche Dokumente verarbeiten, notieren Sie die häufigen Fehler – die meisten KI-Extraktionstools verbessern sich durch Feedback, und Sie können ein Bereinigungsmakro für wiederkehrende Muster erstellen.

„Das PDF ist in einer anderen Sprache als Englisch“

Prüfen Sie, ob Ihr OCR- oder KI-Tool die Sprache unterstützt. Die meisten Tools sind standardmäßig auf Englisch eingestellt und liefern bei nicht-lateinischen Schriften verstümmelte Ausgaben. Google Drive OCR verarbeitet über 200 Sprachen recht gut. KI-Extraktionstools mit Vision-Modellen verarbeiten in der Regel jede im Dokument vorkommende Sprache, da sie visuell lesen und nicht sprachspezifische Zeichenerkennung nutzen.

„Die Scanqualität ist zu niedrig – Text ist unscharf oder schief“

Scannen Sie mit 300 DPI oder höher neu, falls Sie das Original noch haben. Für Dateien, die Sie nicht neu scannen können, versuchen Sie ein KI-Verbesserungstool, das Bilder vor der OCR entzerren und schärfen kann. Einige Online-OCR-Dienste bieten eine Bildvorverarbeitung, die schlechte Scanqualität teilweise ausgleichen kann.

„Ich muss 50+ gescannte PDFs verarbeiten – gibt es eine Stapelverarbeitung?“

Ja. Die meisten kommerziellen OCR-Plattformen und KI-Extraktionstools unterstützen Stapelverarbeitung. Sie laden alle Dateien auf einmal hoch, das Tool verarbeitet sie gemeinsam und gibt eine einzige Excel-Datei mit einer Zeile pro Dokument aus. Hier haben KI-Extraktionstools einen deutlichen Vorteil gegenüber herkömmlicher OCR, die Dateien normalerweise einzeln verarbeitet.

Häufig gestellte Fragen

Hat Excel eine integrierte OCR-Funktion für gescannte PDFs?

Nein. Die Funktion Daten > Daten abrufen > Aus Datei > Aus PDF in Excel funktioniert nur mit nativen PDFs, die bereits auswählbaren Text enthalten. Für gescannte (bildbasierte) PDFs benötigen Sie ein externes OCR-Tool oder eine KI-Extraktionsplattform.

Kann Google Drive ein gescanntes PDF in Excel konvertieren?

Die Google Drive OCR extrahiert den Text aus dem Bild und fügt ihn in ein Google Doc ein, aber das Ergebnis ist reiner Text ohne erhaltene Tabellenstruktur. Sie können diesen Text in Excel kopieren, müssen die Daten jedoch manuell in Spalten trennen. Google Drive bietet keinen direkten Konvertierungspfad von gescanntem PDF zu Excel.

Ist die OCR-Genauigkeit für Buchhaltungsdaten ausreichend?

Das hängt vom Tool und der Scanqualität ab. Traditionelle OCR erreicht bei einem sauberen Scan einer Standardrechnung eine Zeichengenauigkeit von 95–97 %. KI-Extraktionstools, die den Dokumentkontext verstehen, sind für strukturierte Felder zuverlässiger, da sie nach Bedeutung statt nach einzelnen Zeichen suchen. Faustregel: Überprüfen Sie bei jedem kritischen Finanzdatensatz stichprobenartig mindestens 10 % der Zeilen, unabhängig vom verwendeten Tool.

Was ist das beste kostenlose Tool, um ein gescanntes PDF in Excel zu OCR-en?

Es gibt keine einheitliche Antwort, da „kostenlos“ für verschiedene Tools unterschiedliche Grenzen bedeutet. Google Drive OCR ist kostenlos, liefert aber nur Textausgabe. Adobe Acrobat Online OCR bietet eine kostenlose Datei pro Tag. OCR.space gewährt Entwicklern 25.000 kostenlose API-Anfragen pro Monat. Einen detaillierten Vergleich mit spezifischen Grenzen und Genauigkeitsabwägungen finden Sie in unserem Leitfaden zur besten kostenlosen OCR-Software 2026.

Wie unterscheidet sich KI-Extraktion von traditioneller OCR für gescannte PDFs?

Traditionelle OCR liest jedes Zeichen auf der Seite und gibt einen Textblock zurück – sie sagt Ihnen, welche Wörter existieren, aber nicht, was sie bedeuten. KI-Extraktion verwendet visuelle Sprachmodelle, um die Dokumentstruktur zu verstehen: Sie kann eine Rechnungsnummer von einer Kundenreferenz, ein Datum von einer Seitenzahl und eine Gesamtsumme von einer Zwischensumme unterscheiden. Anschließend platziert sie jedes Datenelement automatisch in der richtigen Ausgabespalte. Dieses semantische Verständnis macht die Excel-Ausgabe ohne stundenlange manuelle Nachbearbeitung nutzbar.

Können KI-Tools handschriftliche gescannte PDFs verarbeiten?

Einige KI-Extraktionstools können Handschrift verarbeiten, aber die Genauigkeit ist geringer als bei gedrucktem Text – etwa 70–85 % bei klarer Handschrift gegenüber 95–99 % bei gedruckten Zeichen. Die Handschrift-OCR verbessert sich mit visuellen Modellen rasant, aber bei kritischen Daten sollten Sie eine manuelle Überprüfung einplanen. Wenn das handschriftliche Dokument ein strukturiertes Formular ist (wie ein Feldinspektionsbericht oder ein Stundenzettel), kann die KI dennoch erkennen, welches Feld welches ist, selbst wenn einzelne Zeichen unsicher sind.

Die Kluft zwischen einem gescannten PDF und einer brauchbaren Excel-Datei ist real, aber nicht annähernd so groß, wie es die manuelle Dateneingabe erscheinen lässt. Das richtige Tool verkürzt den Weg von Stunden auf Sekunden und macht die Nachbereitung von mühsam zu handhabbar. Der erste Scan mit einem KI-Extraktor dauert länger – weil Sie das Ausgabemuster lernen und Ihre Prüfliste aufbauen. Beim zehnten Scan haben Sie den Prozess auf unter eine Minute pro Dokument heruntergefahren.

Probieren Sie es gleich mit einem gescannten PDF aus, an dem Sie gerade arbeiten. Laden Sie die Datei hoch, definieren Sie die benötigten Spalten und sehen Sie, was zurückkommt – das Ergebnis verrät Ihnen mehr über Ihren spezifischen Anwendungsfall als jede allgemeine Genauigkeitsstatistik.

Schluss mit Abtippen — lassen Sie KI Ihre Dokumente lesen

Bild oder PDF hochladen — strukturierte Daten in 10 Sekunden

Jetzt testen →

Keine Anmeldung · Keine Kreditkarte · Ergebnis in 10 Sekunden