Extrahieren & Berechnen vs. Erst extrahieren, dann Formel
Die wahren Kosten eines zweistufigen Workflows
Die meisten Dokumentextraktions-Tools sehen ihre Aufgabe darin, Daten von der Seite zu holen und in eine Tabelle zu packen. Sie liefern Ihre Spalten – Rechnungsnummer, Lieferantenname, Menge, Einzelpreis – und betrachten die Aufgabe als erledigt. Aber für die Person, die gerade 30 Rechnungen verarbeitet hat und jetzt für jede einzelne Zeilensummen, Abschnittszwischensummen und Abweichungsmarkierungen braucht, hat die Extraktion zwar Eingaben geliefert. Was Sie brauchen, sind Ausgaben – und um von einem zum anderen zu kommen, müssen Sie in Excel Formelspalten anlegen, Dokument für Dokument, Stapel für Stapel.
Die wichtigsten Erkenntnisse
- 30 Rechnungen pro Woche mit zwei berechneten Spalten bedeuten 720 Formelzellen, die jede Woche neu erstellt und geprüft werden müssen – zusätzlich zur bereits automatisierten Extraktion.
- Formeln beziehen sich auf Zellpositionen, nicht auf die Bedeutung der Zahlen – ändert sich das Layout des Lieferanten, liefert Ihre =B2*C2 in jeder Zeile stillschweigend Unsinn.
- Schreiben Sie „Zeilensumme (Menge × Einzelpreis)“ einmal und ImageToTable.ai berechnet es während der Extraktion für jedes Dokument, unabhängig davon, wo diese Felder auf der Seite stehen.
Die Zwei-Schritt-Gewohnheit, die wir alle geerbt haben
Der Standard-Workflow zur Dokumentenverarbeitung hat sich in zwei Jahrzehnten kaum verändert – selbst während sich die zugrundeliegende Extraktionstechnologie grundlegend gewandelt hat:
=B2*C2, derselbe Ziehpunkt, dieselben fragilen Bezüge.Schritte 1 und 2 sind drastisch schneller geworden. Schritte 3 und 4 nicht. Diese Zwei-Schritt-Gewohnheit – erst extrahieren, später berechnen – existiert, weil Extraktionstools zum Extrahieren gebaut wurden, nicht zum Rechnen. Der Berechnungsschritt galt als „Ihre Aufgabe", der Teil, den Sie in Ihrer Tabellenkalkulation erledigen. Und lange Zeit ergab diese Aufteilung Sinn. Die Extraktion war der schwierige Teil. Formeln waren der einfache Teil.
Diese Aufteilung ergab etwa zu dem Zeitpunkt keinen Sinn mehr, als die Extraktion schnell genug wurde, dass die Formerstellung zum Engpass wurde.
Wo die Lücke wirklich liegt
Legen wir Zahlen auf die Tabelle, was der Formelschritt kostet – denn es ist leicht, ihn zu unterschätzen, wenn man es Dokument für Dokument macht.
Eine Rechnung mit 30 Positionen und einer einzigen berechneten Spalte – Zeilensumme = Menge × Einzelpreis – erfordert 30 Formelzellen zum Erstellen und Prüfen. Fügt man eine Prüfspalte hinzu, um mit dem Rechnungsendbetrag zu vergleichen, sind es 60 Formelzellen. Die Formeln selbst dauern Sekunden pro Stück. Die Prüfung – jede Zelle scannen, um sicherzustellen, dass der Bezug nicht verrutscht ist – dauert länger.
Skalieren wir das. Dreißig Rechnungen pro Woche, im Schnitt 12 Positionen, mit zwei berechneten Spalten:
720
Formelzellen pro Woche erstellen
75–150
Minuten für Formelverwaltung
Formelfehler häufen sich mit der Menge. Die European Spreadsheet Risks Interest Group (EuSpRIG) erfasst seit über zwei Jahrzehnten Fehlerraten in Tabellenkalkulationen in Unternehmen und stellt durchgängig fest, dass selbst professionell gepflegte Tabellen Formelfehler enthalten – falsche Zellbezüge, durch Einfügen zerstörte Bereiche, Kopierfehler – die unentdeckt bleiben, bis eine nachgelagerte Zahl nicht aufgeht. Ein einziger verschobener Bezug in einer gezogenen Formel pflanzt den Fehler in jede Zeile fort.
Das tiefere Problem: Formeln sind layoutabhängig, nicht bedeutungsabhängig. Eine Rechnung von Lieferant A hat Menge in Spalte B und Einzelpreis in Spalte C. Lieferant B nutzt Spalten D und F. Die Formel, die für A funktioniert, liefert für B Unsinn. Jedes neue Dokumentenlayout erfordert angepasste Zellbezüge. Zehn Lieferanten bedeuten zehn Formelvorlagen. Deshalb funktioniert „Als Vorlage speichern" in der Praxis selten – die Vorlage referenziert Zellpositionen, und die ändern sich mit jeder Dokumentenquelle.
Die Lücke ist nicht, dass Formeln schwer zu schreiben sind. Sondern dass sie im großen Maßstab zerbrechlich sind. Bei fünf Dokumenten pro Monat von einem Lieferanten ist der Formelaufwand trivial. Bei fünfzig Dokumenten pro Woche von fünfzehn Lieferanten wird die Formelverwaltung zum dominanten Zeitfresser – und zum Schritt, der am ehesten Fehler einschleust, die niemand bemerkt. Berechnete Spalten schließen diese Lücke, indem sie die Berechnung dorthin verlagern, wo die Daten zuerst gelesen werden.
Was „Extrahieren und Berechnen“ wirklich bedeutet
Berechnete Spalten kehren die Reihenfolge um. Statt zuerst zu extrahieren und später zu berechnen, erfolgt die Berechnung bereits während der Extraktion. Sie beschreiben die Berechnung in einfachem Deutsch – nicht in Formelsyntax – und die KI liefert die Antwort zusammen mit den Rohdaten.
Der Unterschied wird im direkten Vergleich am deutlichsten:
| Schritt | Extrahieren → Excel → Formel | Extrahieren + Berechnen (Ein Schritt) |
|---|---|---|
| Einrichtung | Extraktionsspalten definieren: Menge, Einzelpreis | Spalte definieren: Zeilensumme (Menge × Einzelpreis) |
| Verarbeitung | Extrahieren → Tabelle herunterladen | Hochladen → KI extrahiert und berechnet in einem Durchgang |
| Nachbearbeitung | Excel öffnen → Formelspalte einfügen → ziehen → prüfen → bei Layoutänderungen anpassen | Keine. Die Ausgabe enthält die Zeilensumme für jede Zeile. |
| Neuer Anbieter | Zellbezüge für neues Layout anpassen → Formeln neu ziehen | Gleiche Spaltendefinition funktioniert bei jedem Layout. Null Anpassung. |
Der Mechanismus, der dies ermöglicht, ist keine Formelausführung – es ist KI-gestütztes Verständnis des Dokumentkontexts. Wenn Sie Zeilensumme (Menge × Einzelpreis) definieren, liest das KI-Visionsmodell das Dokument, identifiziert, welche Werte Mengen und welche Einzelpreise sind (durch Verständnis von Spaltenüberschriften, Tabellenstruktur und Feldsemantik), und berechnet das Produkt für jede Zeile. Es bezieht sich nicht auf Zelle B2 oder C2 – sondern auf „den Mengenwert in dieser Zeile“ und „den Einzelpreiswert in dieser Zeile“. Dieses semantische Verständnis macht dieselbe Anweisung für jedes Dokumentlayout jedes Anbieters nutzbar.
ImageToTable.ai bietet zwei Möglichkeiten, berechnete Spalten zu definieren:
Spaltennamen-Methode – kein Login, sofort in der Demo nutzbar
Die KI liest die Anweisung in Klammern, extrahiert Menge und Einzelpreis aus jeder Position und gibt das berechnete Ergebnis aus. Spaltennamen einfügen, Dokument hochladen, Antworten erhalten.
Regelformat — Anmeldung erforderlich, produktionsbereit
Spaltennamen bleiben sauber. Die Berechnungslogik lebt in einer JSON-Regel – mehr Kontrolle, besser für teamweit genutzte Vorlagen, unterstützt komplexe mehrstufige Ableitungen.
Beide Ansätze liefern das gleiche Ergebnis – eine Spalte „Zeilenbetrag" mit bereits berechneten Werten. Der Unterschied liegt im Workflow. Verwenden Sie Spaltennamen für schnelle Tests und einmalige Extraktionen. Nutzen Sie das Regelformat für wiederkehrende Workflows, bei denen saubere Spaltenüberschriften und detaillierte Berechnungsanweisungen wichtig sind.
Dies unterscheidet sich grundlegend von Tools, die Tabellenkalkulationsformeln in einer Extraktionsoberfläche nachbilden. Diese verlangen etwas wie @MULTIPLY(Menge, Einzelpreis) – immer noch eine Formel, nur in anderer Verpackung, und weiterhin anfällig bei sich ändernden Feldpositionen. Berechnete Spalten basieren auf Bedeutung, nicht auf Position. „Menge mit Einzelpreis multiplizieren" funktioniert auf jeder Rechnung, weil die KI versteht, worauf sich diese Begriffe beziehen – unabhängig davon, wo sie auf der Seite stehen.
Dateien werden sicher verarbeitet und nicht gespeichert. Versuchen Sie, Zeilenbetrag (Menge × Einzelpreis) als Spaltennamen hinzuzufügen.
Vier Dimensionen, die entscheiden, wann die alte Methode versagt
Kein Workflow ist universell besser. Der Wert der Kombination von Extraktion und Berechnung hängt von Ihrem Volumen, Ihrer Vielfalt und Ihrer Komplexität ab. Nachfolgend ein dimensionsweiser Vergleich – nicht um einen Gewinner zu küren, sondern um die Bedingungen zu identifizieren, unter denen der zweistufige Ansatz nicht mehr das richtige Werkzeug ist.
| Dimension | Extrahieren → Excel → Formel | Extrahieren + Berechnen (Ein Schritt) |
|---|---|---|
| Geschwindigkeit | Extraktion: 5–10 Sek./Seite. Formeleinrichtung: 2–5 Min. pro Dokumenttyp pro Stapel. Gesamtzeit steigt mit der Dokumentenvielfalt, nicht nur mit dem Volumen. | 5–10 Sek./Seite insgesamt. Ausgabe enthält alle berechneten Spalten. Keine Nachbearbeitung. Zeit skaliert linear nur mit der Seitenzahl – Vielfalt verursacht keinen Mehraufwand. |
| Genauigkeit | Zwei unabhängige Fehlerquellen: Extraktionsgenauigkeit + Formelgenauigkeit. Formelfehler (falsche Referenzen, defekte Bereiche, Kopierfehler) werden selten systematisch geprüft und summieren sich mit dem Volumen. | Eine Fehlerquelle: KI-Extraktions- und Berechnungsgenauigkeit. Precision+ fügt Verifikationslogik für zeilenübergreifende und bedingte Logik bei komplexen Dokumenten hinzu. |
| Skalierbarkeit | Jedes neue Dokumentenlayout erfordert Formelanpassung. 10 Lieferanten → 10 Formelvorlagen. Formelanfälligkeit steigt mit der Quellenvielfalt und Teamgröße. | Dieselbe Anweisung in einfachem Deutsch funktioniert bei jedem Layout. Ein Lieferant mehr kostet nichts. Eine Berechnung hinzuzufügen bedeutet, eine Textzeile zu ändern. |
| Lernaufwand | Zeilenarithmetik (=A1*B1) ist einfach. Zeilenübergreifende Aggregation (SUMMEWENN, SUMMENPRODUKT) und bedingte Logik (verschachteltes WENN/UND) erfordern fortgeschrittene Kenntnisse. Teammitglieder, die keine Formeln schreiben, können sie nicht prüfen. | Anweisungen in einfachem Deutsch. Die Spaltennamen-Methode erfordert keine Einarbeitung. Das Regelformat verwendet lesbares JSON – zugänglich für alle, nicht nur für Excel-Experten. |
Der Wendepunkt ist keine klare Schwelle. Es ist die Kombination aus Volumen × Vielfalt × Komplexität, die die Formelerstellung von „Teil der Arbeit" zu „dem Teil, der die für die Analyse vorgesehene Zeit verschlingt" macht. Für jemanden, der fünf Rechnungen pro Monat von einem Lieferanten verarbeitet, ist der Formelschritt eine Sache von Minuten – und der traditionelle Workflow ist in Ordnung. Für jemanden, der 30 Rechnungen pro Woche von zehn Lieferanten mit zeilenübergreifenden Berechnungen und Bedingungsprüfungen verarbeitet, ist der Formelschritt der Punkt, an dem der Nachmittag verschwindet – und was leidet, ist nicht nur die Geschwindigkeit, sondern auch die Gründlichkeit. Wenn Formeln zu lange dauern, wird die Überprüfung übersprungen.
Die meisten Teams überschreiten diese Schwelle nicht plötzlich. Der Formel-Overhead wächst schleichend mit dem Unternehmen – mehr Lieferanten, mehr Dokumententypen, mehr Personen, die an der Tabelle arbeiten. Meist bemerkt man es erst, wenn ein Formelfehler eine Zahlungsdifferenz verursacht, die jemand Wochen später entdeckt. Zu dem Zeitpunkt ist man bereits seit Monaten über der Schwelle.
Drei Szenarien, in denen der Unterschied spürbar wird
Abstrakte Vergleiche helfen, das Problem einzuordnen. Konkrete Szenarien zeigen, wo die Lücke im Arbeitsalltag tatsächlich auftritt. Jedes Szenario stellt beide Ansätze Schritt für Schritt gegenüber.
Szenario 1: Prüfung von Rechnungspositionen
Ein Lieferant sendet eine Rechnung mit Menge, Einzelpreis und Gesamtbetrag pro Position. Sie müssen prüfen, ob Menge × Einzelpreis dem berechneten Betrag entspricht – und jede Abweichung vor der Zahlung markieren. Dies ist die häufigste AP-Berechnung überhaupt und die, die unter Zeitdruck am ehesten übersprungen wird.
Traditionell: Extrahieren → Excel → Formel
- Menge, Einzelpreis und Gesamtbetrag in drei Spalten extrahieren
- Formelspalte hinzufügen:
=B2*C2→ 30 Zeilen nach unten ziehen - Prüfspalte hinzufügen:
=D2-E2→ 30 Zeilen nach unten ziehen - Nach Werten ungleich Null suchen. Für jede Rechnung im Stapel wiederholen.
30 Rechnungen × 12 Positionen = 720 Formelzellen, die erstellt und geprüft werden müssen. Wenn Sie 30 Rechnungen bearbeiten und Schritt 4 an einem hektischen Tag auslassen, bleibt eine Überzahlung unbemerkt.
Ein-Schritt: Extrahieren + Berechnen
- Zwei Spalten definieren:
Berechneter Gesamtbetrag (Menge × Einzelpreis, zwei Dezimalstellen)undAbgleich (OK, wenn berechneter Gesamtbetrag gleich Rechnungsbetrag, sonst Ausgabe der Differenz) - Alle 30 Rechnungen in einem Stapel hochladen
- Die Ausgabe enthält beide berechneten Spalten für jede Position. Die Spalte „Abgleich“ zeigt sofort, welche Zeilen Aufmerksamkeit benötigen – keine Formelzellen, kein Suchen.
Eine vollständige Schritt-für-Schritt-Anleitung finden Sie in unserem Leitfaden zur Rechnungspositionsprüfung mit berechneten Summen.
Szenario 2: Angebotsvergleich mit Abschnittszwischensummen
Drei Subunternehmer reichen Angebote für ein Projekt ein. Jeder gliedert die Positionen anders – einer nach Gewerken, einer nach Materialart, einer nach Bauphase. Sie benötigen Positionsbetrag (Menge × Einheitssatz), Abschnittszwischensummen und Gesamtsumme für jedes Angebot, um die Kosten zu vergleichen.
Bisher: Extrahieren → Excel → Formel
- Rohdaten aus drei PDFs in drei separate Tabellenblätter extrahieren
- In jedem Blatt eine Spalte „Positionsbetrag" hinzufügen – die Zellbezüge unterscheiden sich je nach Angebotslayout
- Abschnittsgrenzen manuell identifizieren (welche Zeilen zu Beton vs. Rahmenbau gehören)
- SUMME-Formeln pro Abschnitt hinzufügen, Summen gegenprüfen. Drei Angebote = drei separate Formelaufbauten, die nicht zwischen Angeboten wiederverwendet werden können.
Ein Schritt: Extrahieren + Berechnen
- Einmal definieren:
Positionsbetrag (Menge × Einheitssatz, zwei Dezimalstellen)undAbschnittszwischensumme (Summe aller Positionsbeträge unter derselben Abschnittsüberschrift) - Alle drei Angebote in einem Batch hochladen
- Die Ausgabe enthält Positionsbeträge und Abschnittszwischensummen, gegliedert nach Abschnitt – unabhängig vom internen Layout jedes Angebots.
Die vollständige Einrichtung inkl. abschnittsübergreifender Aggregation finden Sie unter Subunternehmer-Angebote mit berechneten Positionsbeträgen scannen.
Szenario 3: Bedingungsprüfungen bei unregelmäßigen Dokumenten
Ein Restaurant erhält Lieferantenrechnungen, bei denen Mengenrabatte inkonsistent angewendet werden. Artikel mit Menge ≥ 10 sollen 5 % Rabatt erhalten. Sie müssen jede Position identifizieren, bei der der Rabatt falsch angewendet wurde – falscher Satz oder gar nicht – in Rechnungen von sechs Lebensmittellieferanten mit jeweils unterschiedlichen Formaten.
Bisher: Extrahieren → Excel → Formel
- Menge, Einzelpreis und Positionssumme für jede Lieferantenrechnung extrahieren
- Bedingungsformel hinzufügen:
=WENN(B2>=10; B2*C2*0,95; B2*C2) - Vergleichsspalte hinzufügen:
=D2-E2um Abweichungen zu erkennen - Wenn sich die Rabattschwelle ändert (z. B. von 10 auf 12 Einheiten), jede Formel in allen Blättern aktualisieren.
Ein Schritt: Extrahieren + Berechnen
- Definieren:
Erwartete Summe (Wenn Menge >= 10 dann Menge × Einzelpreis × 0,95, sonst Menge × Einzelpreis, zwei Dezimalstellen)undAbweichung (OK wenn Erwartete Summe gleich Positionssumme, sonst Ausgabe der Differenz) - Rechnungen aller sechs Lieferanten in einem Batch hochladen
- Die Schwelle zu ändern bedeutet, eine Zahl in der Definition zu bearbeiten – nicht Formeln in mehreren Tabellenblättern umzuschreiben.
Die gleiche bedingte Berechnung gilt für die Lebensmittelkostenanalyse. Siehe Lebensmittelkostenprozente aus Rechnungsfotos berechnen für einen verwandten Anwendungsfall.
Wann der alte Weg noch funktioniert (und wann nicht)
Berechnete Spalten sind kein universeller Ersatz für Tabellenformeln. Sie lösen ein spezifisches Problem: den Berechnungsengpass, der entsteht, wenn das Extraktionsvolumen die Kapazität zur Formelerstellung übersteigt. In vielen Situationen ist der traditionelle zweistufige Workflow nach wie vor die richtige Wahl.
Der traditionelle Workflow ist völlig ausreichend, wenn:
- Sie weniger als 10 Dokumente pro Woche aus wenigen Quellen verarbeiten
- Dokumente ein identisches oder nahezu identisches Layout aufweisen (einzelner Lieferant, standardisierte Formulare wie Stromrechnungen)
- Berechnungen auf einfache Zeilenarithmetik beschränkt sind – Multiplikation zweier benachbarter Spalten, Addition eines festen Steuersatzes
- Eine Person den gesamten Workflow betreut und die Formelprüfung Teil ihrer Routine ist
Der zweistufige Workflow beginnt zu versagen, wenn:
- Das Dokumentvolumen 15–20 pro Woche übersteigt und die Layouts je nach Quelle variieren
- Berechnungen zeilenübergreifende Aggregationen, Bedingungslogik oder mehrstufige Ableitungen umfassen, bei denen die Formelkomplexität schneller wächst als das Volumen
- Mehrere Personen an der Tabelle arbeiten, was das Risiko versehentlicher Formelkorruption erhöht
- Formelfehler finanzielle Konsequenzen haben – Überzahlung, verpasste Abrechnung, Compliance-Lücken
- Die Person, die die Formeln erstellt, auch diejenige ist, die die Ergebnisse analysieren sollte – die Formelerstellung verbraucht die Zeit, die für die Beurteilung gedacht ist
Was die Waage kippen lässt, ist selten ein einzelner Faktor. Es ist die Kombination: Volumen × Vielfalt × Komplexität. Jeder einzelne Faktor ist beherrschbar. Alle drei gleichzeitig sind der Punkt, an dem die Formelverwaltung aufhört, eine kleine Unannehmlichkeit zu sein, und zur primären Einschränkung des Arbeitspensums wird.
Der pragmatische Ansatz besteht nicht darin, jede Formel durch eine berechnete Spalte zu ersetzen. Es geht darum, zu identifizieren, welche Berechnungen sich in jedem Batch wiederholen, welche brechen, wenn sich Layouts ändern, und welche komplex genug sind, dass eine Überprüfung wichtig ist – und diese in den Extraktionsschritt zu verlagern. Lassen Sie die einmaligen Berechnungen und Ad-hoc-Analysen in Excel, wo sie hingehören. Arbeitsblätter mit Berechnung des Rechnungsbetrags und Berechnung des Nettogehalts auf Gehaltsabrechnungen sind Beispiele für Berechnungen, die sich bei jedem Dokument identisch wiederholen – die idealen Kandidaten für die Verlagerung in den Extraktionsdurchlauf.