CFDI-Datenextraktion:Der vollständige Leitfaden zu mexikanischen elektronischen Rechnungen

Eine CFDI ist kein Dokument zum Lesen – es ist ein Steuerbeleg, den Sie korrekt entschlüsseln müssen. Mexikos seit 2014 vom SAT durchgesetztes, verpflichtendes elektronisches Rechnungssystem erzeugt Rechnungen als XML-Dateien mit einer 36-stelligen UUID, zugehörigen RFC-Steuer-IDs, Steuerregime-Codes und – je nach Transaktionsart – einem oder mehreren strukturierten Komplementen, die die eigentlichen Zahlungs-, Gehalts- oder Zolldaten enthalten. Diese in eine Tabelle zu extrahieren bedeutet, eine Dokumentenarchitektur zu verstehen, die für die Echtzeit-Prüfung durch die Behörden konzipiert wurde, nicht für die Lesbarkeit durch Menschen. Dieser Leitfaden deckt die gesamte Landschaft ab: die sechs CFDI-Dokumenttypen, das Komplementsystem, jede verfügbare Extraktionsmethode und wie Sie die Ergebnisse in die Buchhaltungssoftware integrieren, die Ihr mexikanisches Team bereits nutzt.

Schluss mit Abtippen — lassen Sie KI Ihre Dokumente lesen
Bild oder PDF hochladen — strukturierte Daten in 10 Sekunden
Jetzt testen
Keine Anmeldung · Keine Kreditkarte · Ergebnis in 10 Sekunden
Mexikanische CFDI-Elektronische-Rechnung-Datenextraktion – strukturierte Steuerdokumentverarbeitung auf einem Schreibtisch mit Geschäftsunterlagen

Was CFDI von anderen Rechnungen unterscheidet

Jede Rechnung, die Sie je von einem US-amerikanischen, europäischen oder asiatischen Lieferanten verarbeitet haben, folgt dem gleichen Grundmuster: Der Lieferant stellt ein Dokument aus, Sie erhalten es, und die Daten – Rechnungsnummer, Datum, Betrag, Steuer – befinden sich auf dem Dokument selbst. Das Dokument ist die Quelle der Wahrheit. CFDI kehrt dieses Modell vollständig um.

Ein CFDI (Comprobante Fiscal Digital por Internet) ist ein XML-Dokument, das von einem staatlich autorisierten PAC (Proveedor Autorizado de Certificación) validiert und gestempelt werden muss, bevor es rechtsgültig wird. Dies wird als Freigabemodell bezeichnet: Der Aussteller erzeugt das XML, übermittelt es an einen PAC, der PAC prüft die Struktur und die digitale Signatur, fügt einen Timbre Fiscal (digitalen Stempel) hinzu und leitet eine Kopie in Echtzeit an SAT – die mexikanische Steuerbehörde – weiter. Erst nach diesem Drei-Wege-Handshake existiert die Rechnung als rechtsgültiges Dokument. Die UUID (Folio Fiscal), die SAT in diesem Moment vergibt, wird zur dauerhaften Kennung, die diese Transaktion mit jeder nachfolgenden Prüfung, Zahlung und Steuererklärung verknüpft.

Dies hat eine praktische Konsequenz, die die meisten AP-Teams bei der ersten Zusammenarbeit mit mexikanischen Lieferanten überrascht: Die XML-Datei ist die rechtsgültige Rechnung. Das PDF, das in derselben E-Mail ankommt, ist ein dekorativer Ausdruck – nützlich für die menschliche Prüfung, aber ohne rechtliche Bedeutung. Gemäß Artikel 30 des CFF müssen sowohl Aussteller als auch Empfänger das originale CFDI-XML mindestens fünf Jahre lang aufbewahren. Die Entsorgung des XML bei gleichzeitiger Aufbewahrung nur des PDFs schafft ein Prüfungsrisiko, das viele Teams erst entdecken, wenn SAT die Aufzeichnungen anfordert.

Die aktuelle Version, CFDI 4.0, ist seit April 2023 verpflichtend. Sie führte eine strengere Empfängervalidierung ein: Die RFC, der rechtliche Name und die Postleitzahl des Steuerdomizils des Empfängers müssen exakt mit dem Steuerzahlerregister von SAT übereinstimmen. Rechnungen der Version 3.3 werden nicht mehr akzeptiert. Für jeden, der einen CFDI-Extraktionsworkflow aufbaut, bedeutet dies, dass jedes verarbeitete Dokument dem 4.0-Schema folgt – ein konsistentes Ziel für die Extraktion, das jedoch mehr Pflichtfelder als frühere Versionen enthält.

Das Kernproblem bei der CFDI-Extraktion ist nicht, dass die Daten fehlen. Es ist, dass die Daten in einem Format vorliegen, das für die staatliche Freigabe entwickelt wurde, nicht für die Tabellenkalkulation – und die Brücke zwischen beiden zu bauen, ist das, woran die meisten Teams scheitern.

Die sechs CFDI-Dokumententypen – und wann sie Ihnen begegnen

CFDI ist kein einzelner Dokumententyp. Das SAT definiert sechs verschiedene Comprobante-Typen, jeder mit eigenen Schema-Regeln, Pflichtfeldern und Extraktionsanforderungen. Wenn Sie Rechnungen von mehr als einer Handvoll mexikanischer Lieferanten verarbeiten, werden Sie den meisten davon begegnen.

TypCodeEinsatzbereichExtraktionskomplexität
IngresoIStandard-Verkaufsrechnung – Einnahmen aus Waren oder Dienstleistungen. ~85 % aller CFDIs, die Sie erhalten.Basisschema. IVA-Aufschlüsselung, UsoCFDI erforderlich.
EgresoEGutschriften, Rückerstattungen, Rabatte – Minderungen zuvor ausgestellter Ingreso-Rechnungen.Muss die ursprüngliche UUID referenzieren. Erfordert dokumentenübergreifenden Abgleich.
PagoPZahlungsbeleg – wird ausgestellt, wenn eine PPD-Rechnung teilweise oder vollständig beglichen wird.Hoch. Enthält Complemento de Pago mit UUID-Referenzen pro Zahlung.
NóminaNGehaltsbeleg – Pflicht für jede Mitarbeiterzahlung. Das SAT nutzt dies zur Prüfung von Einkommensteuer und Sozialversicherung.Hoch. Über 50 Felder umfassendes Komplement mit IMSS, INFONAVIT, SAR und anderen Abzugsarten.
TrasladoTTransferbeleg – Warenbewegung ohne Verkauf (Lagerumbuchungen, Konsignation, Carta Porte).Mittel. Erfordert Carta-Porte-Komplement für Frachtbewegungen.
RetencionesREinbehaltungsbeleg – meldet einbehaltene Steuern (ISR, IVA) bei Zahlungen an Dritte.Verwendet ein separates XSD. Nicht Teil des Basis-CFDI-Schemas.

Der Zahlungstyp, der in der Praxis die meisten Extraktionsprobleme verursacht, ist Pago. Stellt ein Lieferant eine Rechnung mit PPD-Zahlungsbedingungen aus, enthält die Rechnung selbst die Positionen und Gesamtbeträge, nicht jedoch die Zahlungsdetails. Bei jeder Zahlung des Käufers stellt der Lieferant ein separates Pago-CFDI mit einem Complemento de Pago aus, das angibt, welche UUID in welcher Höhe, an welchem Datum und mit welcher Methode bezahlt wird. Eine AP-Abteilung, die 40 PPD-Rechnungen verarbeitet, muss möglicherweise 60–80 CFDIs abgleichen – jeder erfordert eine UUID-Referenz zwischen dem Ingreso und seinen Zahlungskomplementen.

Kernfelder, SAT-Kataloge und was sie für Ihre Tabelle bedeuten

Zu verstehen, welche Felder extrahiert werden müssen, ist nicht nur eine technische Frage – es bestimmt, ob Ihre Ausgabe für die DIOT-Meldung, die IVA-Gutschriftenabstimmung und die Prüfungsbeantwortung verwendbar ist. Jedes Feld in einem CFDI ist einem SAT-Katalogcode zugeordnet, und dasselbe Feld kann je nach ausgewähltem Code unterschiedliche steuerliche Auswirkungen haben.

Felder auf Kopfebene (Comprobante-Knoten)

FeldXPath (vereinfacht)Warum wichtig
UUID (Folio Fiscal)/cfdi:Comprobante/Complemento/TimbreFiscalDigital/UUIDPrimärschlüssel jeder Transaktion. Wird für Zahlungsabgleich, Stornierungsverfolgung und Prüfpfad verwendet.
RFC Emisor / Receptor/cfdi:Comprobante/Emisor/@Rfc, /Receptor/@RfcSteuer-ID beider Parteien. Ein einziger falscher Buchstabe macht die Ausgabe steuerlich nicht abzugsfähig.
Régimen Fiscal (Emisor)/cfdi:Comprobante/Emisor/@RegimenFiscalBestimmt die Steuerregeln des Lieferanten – natürliche vs. juristische Person, RESICO vs. allgemeines Regime.
Fecha/cfdi:Comprobante/@FechaISO-8601-Zeitstempel der Ausstellung. Vom SAT für die Zuordnung zum Steuerzeitraum verwendet.
Serie + Folio/cfdi:Comprobante/@Serie, @FolioInterne Rechnungsnummer des Lieferanten – nützlich für den Abgleich mit Lieferantenauszügen.
SubTotal / Total/cfdi:Comprobante/@SubTotal, @TotalNettobetrag und Endbetrag. Der Gesamtbetrag muss Nettobetrag + übertragener IVA − einbehaltener IVA entsprechen.
Moneda + TipoCambio/cfdi:Comprobante/@Moneda, @TipoCambioWährungscode (MXN, USD, EUR) und Wechselkurs, falls nicht in mexikanischen Pesos.
MétodoPago / FormaPago/cfdi:Comprobante/@MetodoPago, @FormaPagoPUE (einmalig) vs. PPD (Raten) – bestimmt, ob ein Complemento de Pago erwartet wird.
UsoCFDI/cfdi:Comprobante/@UsoCFDIVerwendungscode des Empfängers – G01 (Anschaffungen), G03 (Ausgaben), D01 (Kfz), P01 (PPD). Bestimmt die IVA-Vorsteuerabzugsberechtigung.
Exportación/cfdi:Comprobante/@ExportacionPflichtfeld in CFDI 4.0. 01=Inland, 02=endgültiger Export. Trennt Rechnungen für die DIOT-Meldung.

Steueraufschlüsselung: IVA, Retenciones und IEPS

Die Steuerstruktur in einem CFDI befindet sich unterhalb der Positionsebene, verschachtelt in jedem Concepto. Das bedeutet, dass IVA-Satz und -Betrag positionsbezogen sind, nicht rechnungsbezogene Aggregate. Die Extraktion muss diese summieren, wenn Ihre Ausgabe eine einzige Steuerzeile pro Rechnung benötigt, aber die zugrunde liegenden Daten sind granular:

  • IVA 16% – der Standardsatz, der auf die meisten Waren und Dienstleistungen angewendet wird. Die Grenzregion (nördliche und südliche Grenze) hat unter bestimmten Bedingungen Anspruch auf einen reduzierten IVA-Satz von 8%.
  • IVA 0% – gilt für Exporte (Exportación=02/03) sowie bestimmte Grundnahrungsmittel, Medikamente und landwirtschaftliche Betriebsmittel.
  • IVA Retenido – der Empfänger kann verpflichtet sein, zwei Drittel der IVA einzubehalten und direkt an das SAT abzuführen. Das CFDI zeigt sowohl ImpuestosTrasladados (vom Lieferanten berechnete IVA) als auch ImpuestosRetenidos (vom Käufer einbehaltene IVA).
  • ISR Retenido – 10% Einbehalt bei Dienstleistungen von natürlichen Personen, 1,67% bei Einkäufen vom allgemeinen Regime, 20% bei Zinszahlungen. Diese müssen in der monatlichen DIOT gemeldet werden.
  • IEPS – Verbrauchsteuer auf bestimmte Waren: Alkohol, Tabak, Benzin, zuckerhaltige Getränke. Jede Produktkategorie ist einem anderen IEPS-Satz zugeordnet (3%–160%).

Für die Extraktion ist der entscheidende Punkt, dass ein CFDI mehrere Steuerkombinationen über verschiedene Positionen hinweg enthalten kann. Eine einzelne Rechnung eines Händlers, der sowohl Standardwaren (IVA 16%) als auch IEPS-pflichtige Produkte verkauft, enthält Positionen zu 16%, zu 16%+IEPS und möglicherweise zu 0%. Ihre Extraktionsausgabe muss entweder die positionsbezogenen Steuerdetails erhalten oder korrekt nach Steuersatz aggregieren.

Die Complemento-Ebene: Wo die meisten Extraktionsanleitungen aufhören

Ein Complemento ist ein strukturierter XML-Anhang, der das Basis-CFDI-Schema für bestimmte Transaktionsarten erweitert. Das Basis-CFDI deckt den Rechnungskopf und die Positionen ab. Alles andere – Zahlungsdetails, Lohnabrechnungen, Zolldaten, Transportinformationen – befindet sich in Complementos. Für AP-Teams, die mexikanische Rechnungen verarbeiten, sind drei Complementos am wichtigsten.

Complemento de Pago (Zahlungs-Complement)

Dieses Complement ist an jeden Pago-CFDI angehängt und die mit Abstand größte Quelle für Extraktionskomplexität in der mexikanischen Kreditorenbuchhaltung. Stellt ein Lieferant eine Rechnung mit PPD-Bedingungen (MétodoPago=PPD) aus, enthält die ursprüngliche Ingreso-Rechnung keine Zahlungsdaten. Bei jeder Zahlung des Käufers – ob vollständig, teilweise oder mit Zahlungsziel – stellt der Lieferant einen Pago-CFDI aus, dessen Complemento de Pago Folgendes erfasst:

  • Die UUID der ursprünglichen, zu zahlenden Ingreso-Rechnung
  • Der auf diese UUID angewandte Zahlungsbetrag
  • Das Zahlungsdatum und die Zahlungsmethode (Überweisung, Scheck, Bargeld, Karte)
  • Die Währung und der Wechselkurs zum Zahlungszeitpunkt (entscheidend, wenn die Originalrechnung in USD war)
  • Der ausstehende Saldo nach dieser Zahlung (saldo insoluto)

Eine Ingreso-Rechnung kann durch mehrere Pago-CFDIs beglichen werden – jeder verweist auf dieselbe UUID mit einem anderen Zahlungsbetrag. Die Extraktionsherausforderung ist nicht technischer Natur (die UUID ist immer vorhanden), sondern verfahrenstechnisch: Die meisten AP-Teams extrahieren das Complemento de Pago überhaupt nicht, sodass die Zahlungsdaten in einem separaten Dokument verbleiben, das im Workflow mit nichts mit der Originalrechnung verbunden ist.

Eine CFDI-Positionsextraktion, die beim Rechnungskopf aufhört und Complementos unberührt lässt, erfasst nur etwa 60 % der Daten, die Ihr AP-Team tatsächlich benötigt.

Complemento de Nómina (Lohn-Complement)

Arbeitgeber in Mexiko müssen für jede Arbeitnehmerzahlung einen Nómina-CFDI ausstellen – Gehalt, Boni, Provisionen, Urlaubsprämien, Abfindungen und Weihnachtsgeld (aguinaldo). Das Complemento de Nómina ist eines der felderreichsten Dokumente im CFDI-System und enthält über 50 strukturierte Felder, darunter:

  • Mitarbeiter-CURP und IMSS-Sozialversicherungsnummer
  • Grundgehalt und Tagesgehalt (Salario Base de Cotización)
  • Ordentliches Einkommen (percepciones), aufgeschlüsselt nach Typschlüssel – Sueldos, Aguinaldo, Prima Vacacional, PTU
  • Abzüge (deducciones) – einbehaltene ISR, IMSS-Beiträge, INFONAVIT-Darlehenszahlungen, SAR/Afore, Pensionsdarlehen
  • Überstunden (Horas Extra) mit Zeittyp und Prozentsatz
  • Gesamtnettobetrag

Bei Arbeitgebern mit mehreren Unternehmen bedeutet die Lohnextraktion die Verarbeitung von Hunderten von Nómina-CFDIs pro Abrechnungszyklus. Jeder Arbeitnehmer erstellt einen CFDI pro Zahlung, und für jeden müssen die Complemento-Felder in eine HR- oder Lohnabrechnungstabelle übertragen werden.

Complemento de Comercio Exterior (Außenhandelsergänzung)

Erforderlich bei Exportación=02 (endgültige Ausfuhr mit A1-Zollschlüssel) oder Exportación=03 (endgültige Ausfuhr mit A2-Schlüssel). Diese Ergänzung enthält die zollseitigen Daten für grenzüberschreitende Transaktionen:

  • Pedimento-Nummer (Zollanmeldenummer)
  • Exporteur-RFC und vollständige Adresse
  • Ausländische Steuernummer des Empfängers
  • INCOTERM-Code
  • Positionsdetails: Zolltarifnummer (fracción arancelaria), zollrechtliche Maßeinheit, Warenwert in USD
  • Ursprungs- und Bestimmungsland

Version 2.0 dieser Ergänzung ist seit Januar 2024 in CFDI 4.0 integriert. Für Unternehmen, die Waren aus Mexiko exportieren, ist die Extraktion sowohl der Basis-CFDI-Felder als auch der Außenhandelsdaten unerlässlich, um Frachtrechnungen mit Zollanmeldungen abzugleichen.

Warum verschiedene PACs unterschiedliche PDF-Layouts bedeuten

Jeder CFDI basiert auf demselben XML-Schema – Anexo 20 Version 4.0, definiert im veröffentlichten XSD des SAT. Das XML ist unabhängig davon konsistent, welcher PAC es stempelt. Aber die PDF-Darstellung, die die meisten AP-Teams tatsächlich betrachten, hängt vollständig davon ab, wie jeder PAC das XML in ein visuelles Format umwandelt.

In der Praxis wird ein von Finkok gestempeltes CFDI-PDF die Felder in einer anderen visuellen Reihenfolge anordnen als eines, das von SW sapien, Digifact, FacturAPI oder dem kostenlosen Tool des SAT gestempelt wurde. Die Daten sind identisch. Das Layout nicht. Für vorlagenbasierte OCR-Tools, die auf feste Extraktionszonen angewiesen sind, erfordert jedes PAC-Layout eine separate Vorlage. Ein Unternehmen, das Rechnungen von 20 Lieferanten erhält, die insgesamt 8 verschiedene PACs nutzen, bräuchte 8 Extraktionsvorlagen – und würde Rechnungen vom 9. PAC verpassen, den es noch nicht konfiguriert hat.

Hier verändert die semantische Extraktion – KI, die ein Dokument liest, indem sie versteht, was jedes Feld bedeutet, statt wo es sitzt – die Wirtschaftlichkeit der CFDI-Verarbeitung. Ein semantisches Extraktionstool, das den Unterschied zwischen einer UUID und einem RFC kennt, kann beide Felder überall auf der Seite finden, unabhängig davon, ob der PAC sie oben, links, rechts, unten oder in einem umrandeten Kästchen platziert hat. Das Layout des PAC wird irrelevant, sodass eine einzige Extraktionskonfiguration alle Lieferanten und alle PACs in Ihrem Portfolio abdeckt.

Extraktionsmethoden im Vergleich: Welcher Ansatz passt zu Ihrem CFDI-Workflow?

Verschiedene Teams wählen unterschiedliche Ansätze für die CFDI-Extraktion – abhängig von Dokumentenvolumen, Formatmix, technischen Fähigkeiten und Budget. Die folgende Tabelle zeigt die vier Hauptmethoden im Vergleich zu den für die mexikanische Rechnungsverarbeitung relevanten Dimensionen.

DimensionManuelle DateneingabeXML-Parsing (Skript)Vorlagen-OCRKI-semantische Extraktion
EinrichtungszeitKeine1–3 Tage (Skript schreiben, testen)1–2 Stunden pro PAC-Layout~15 Minuten
Alle PAC-LayoutsJa (manuell)N/V (arbeitet mit XML)Nein – jedes Layout braucht eine VorlageJa – layoutunabhängig
Scans/FotosJaNeinTeilweise – QualitätsverlustJa
ComplementosWenn der Nutzer danach suchtJa (wenn Skript dafür geschrieben)Nein – Complementos nicht im PDFJa – wenn Tool beide Quellen verarbeitet
Zeit pro 50 CFDIs~3–4 Stunden~2 Minuten (Stapel)~15 Minuten + Korrekturen~2–5 Minuten
Fehlerquote (feldebene)~3–5% (Tippfehler, Vertauschungen)~1% (Schema-Konflikte)~8–15% (Layout-Konflikte)~1–3%
Erforderliche FachkenntnisseKeinePython/XPath/XMLMittel (Zonenkonfiguration)Keine
Skalierbar auf 500+/Monat⚠️

Die Wahl zwischen XML-Parsing und KI-gestützter semantischer Extraktion ist nicht immer eindeutig. Wenn jeder Lieferant das rohe CFDI-XML sendet und Ihr Team über Skriptfähigkeiten verfügt, liefert XML-Parsing mit XPath oder einer Bibliothek wie lxml in Python saubere, direkte Feldextraktion aus den strukturierten Daten. Die Einschränkung: XML-Parsing kann keine gescannten Rechnungen lesen, kann die visuelle PDF-Darstellung nicht interpretieren, wenn das XML nicht angehängt ist, und erfordert aktive Wartung, wenn SAT das Schema aktualisiert (wie bei der Migration von 3.3→4.0).

KI-gestützte semantische Extraktion hingegen arbeitet mit jedem visuellen Dokument – PDF, gescanntes Bild, Handyfoto – und benötigt keine strukturierte XML-Eingabe. Moderne Vision-Modelle, die auf Tausenden von Rechnungslayouts trainiert wurden, können die Felder UUID, RFC und IVA lokalisieren, indem sie die Bedeutung dieser Bezeichnungen verstehen – unabhängig davon, wo im Dokument sie erscheinen. Für Teams, die eine Mischung aus PDF-Anhängen (ohne XML) und gescannten Dokumenten erhalten, ist dies die einzig skalierbare Option.

JPG/PNG/PDF KI-Extraktion XML-Unterstützung

Dateien werden sicher verarbeitet und nicht gespeichert. Testen Sie es mit einer echten CFDI-PDF oder -XML.

Wie KI-Extraktion CFDI-Dokumente verarbeitet – in allen drei Formaten

Der häufigste Fall für AP-Teams: Sie erhalten eine Mischung aus XML-Dateien, PDF-Anhängen und gescannten Dokumenten von verschiedenen Lieferanten und PACs. Für jedes Format einen separaten Workflow zu erstellen, verursacht Wartungsaufwand und Verarbeitungslücken. Ein KI-Ansatz, der alle drei Formate als Eingabequellen mit einer einheitlichen Felddefinition behandelt, vereinfacht dies enorm.

ImageToTable.ai verarbeitet CFDI-Extraktion über das Custom Column Extraction-Paradigma – Sie definieren die gewünschten Ausgabespalten, und die KI findet jeden Wert, indem sie die Bedeutung des Feldes versteht, nicht seine Position auf der Seite. Für CFDI sieht der Workflow so aus:

1
Hochladen – CFDI-PDFs, XML-Dateien oder Fotos in die Upload-Warteschlange ziehen. Batch-Uploads von 50+ Dokumenten in einem Durchgang möglich.
2
Spalten definieren – Die benötigten Feldnamen eingeben: UUID (Folio Fiscal), RFC Emisor, RFC Receptor, SubTotal, IVA Tasa, IVA Monto, Total, UsoCFDI, MétodoPago, Moneda. Für PPD-Rechnungen UUID Pagado und Monto del Pago hinzufügen, um Complemento-de-Pago-Felder zu erfassen.
3
Verarbeiten – Die KI extrahiert die Felder aus allen Dokumenten im Batch, liest XML-Strukturen bei XML-Dateien und nutzt visuelles semantisches Verständnis für PDFs und Scans. XML-Felder werden direkt aus dem Anexo-20-Schema geparst; PDF- und Bildfelder werden visuell durch semantischen Abgleich lokalisiert – dieselbe KI, die Rechnungsnummern auf US-Rechnungen liest, erkennt UUIDs und RFCs auf einem CFDI.
4
Exportieren – Die einheitliche Ausgabe als Excel, CSV oder JSON herunterladen. Alle Lieferanten, PACs und Formate landen in einer einzigen Tabelle mit konsistenten Spaltenüberschriften. Jede Zeile = ein CFDI; jede Spalte = ein von Ihnen definiertes Feld.

Dieser Ansatz löst das PAC-Layout-Problem automatisch: Die KI ist nicht auf feste Feldpositionen angewiesen – ein CFDI von Finkok (UUID oben rechts auf Seite 2) und einer von FacturAPI (UUID unten links in der Fußzeile) liefern beide dieselbe strukturierte Ausgabe.

Bei der Complemento-Extraktion kann die KI bei direkter XML-Verarbeitung die hierarchische Struktur navigieren – vom /Complemento/Pagos-Knoten eines Pago-CFDI zur referenzierten UUID, Zahlungsbetrag und -datum. Bei PDF-Darstellungen desselben Pago-CFDI liest die KI die Complemento-Felder dort, wo der PAC sie im visuellen Dokument platziert hat.

Integration von CFDI-Daten mit mexikanischer Buchhaltungssoftware

Extrahierte CFDI-Daten sind nur dann nützlich, wenn sie das System erreichen, mit dem Ihr Buchhaltungsteam tatsächlich arbeitet. Die mexikanische Buchhaltungssoftwarelandschaft unterscheidet sich erheblich von der in den USA oder Europa – die dominierenden Anbieter sind lokal, und jeder hat spezifische Erwartungen an den Datenimport.

CONTPAQi

CONTPAQi ist die am weitesten verbreitete Buchhaltungs- und Unternehmensverwaltungssuite in Mexiko und deckt Buchhaltung (Contabilidad), elektronische Rechnungsstellung (Factura Electrónica), Lohnabrechnung (Nóminas) und Handelsaktivitäten (Comercial) ab. CONTPAQi importiert CFDI-XML nativ zur Prüfung, aber für die Massendatenanalyse – Abgleich von 200 Lieferantenrechnungen mit Budgetcodes, Erstellung von Ausgabenberichten nach UsoCFDI-Kategorie oder Vorbereitung von DIOT-Eingaben – müssen die Daten in einem Excel-Format vorliegen, das dem Kontenplan von CONTPAQi entspricht. Extrahierte Spalten wie RFC, UUID und IVA-Betrag füllen direkt CONTPAQis auxiliar de cuentas, wenn sie als Sammelbuchungseintrag importiert werden.

Aspel SAE / COI / NOI

Aspel ist die zweithäufigste Buchhaltungsplattform in mexikanischen KMU, mit den Modulen SAE (Verwaltung), COI (Buchhaltung) und NOI (Lohnabrechnung). Wie CONTPAQi kann Aspel CFDI-XML zur Einzelrechnungsprüfung verarbeiten, aber die Berichtsebene funktioniert am besten, wenn CFDI-Massendaten in einer Excel-Tabelle vorkompiliert werden, die Aspels Importvorlagen entspricht. Üblich ist bei mexikanischen Controllern, ein CFDI-Hilfsregister in Excel zu führen – eine Zeile pro Rechnung, Spalten für RFC, UUID, Folio, IVA-Satz und Einbehalt – und es monatlich mit Aspels Hauptbuch abzugleichen. Die automatisierte Extraktion verwandelt dieses Hilfsregister von einer manuellen Tippübung in einen direkten Export.

SAP und Oracle NetSuite

Größere Unternehmen in Mexiko nutzen typischerweise SAP oder Oracle NetSuite mit Lokalisierungen für die CFDI-Konformität. Diese Systeme verarbeiten die XML-Validierung und PAC-Übermittlung automatisch über ihre integrierten CFDI-Module. Die Herausforderung verschiebt sich jedoch von der Konformität zum Abgleich: Beschaffungs- und Kreditorenbuchhaltungsteams müssen extrahierte CFDI-Daten mit Bestellungen, Wareneingangsbelegen und Lieferantenvertragsbedingungen abgleichen. Ein KI-Extraktionsworkflow, der CFDI-Daten als strukturierte Zeilen ausgibt – mit UUID, RFC, Positionsartikel-Produktcodes (c_ClaveProdServ) und Steueraufschlüsselung – speist direkt in SAPs MIRO (Logistik-Rechnungsprüfung) oder NetSuites AP-Stapelimportprozesse ein.

Häufig gestellte Fragen

Kann KI Daten aus CFDI-XML-Dateien extrahieren?

Ja. Moderne KI-Extraktionstools können CFDI-XML-Dateien direkt parsen und die strukturierten Felder aus dem Anexo-20-Schema auslesen. Im Gegensatz zu reinen XML-Parsing-Skripten, die für jedes Feld XPath-Abfragen benötigen, kann die KI-basierte Extraktion Schema-Varianten verarbeiten und die Daten in die von Ihnen definierte Spaltenstruktur ausgeben – unabhängig davon, ob die Quelle XML, PDF oder ein gescannter Scan ist. Dies ist besonders nützlich für gemischte Chargen, bei denen einige Lieferanten XML-Anhänge und andere PDFs senden.

Welche Felder sollte ich aus einer CFDI für die DIOT-Meldung extrahieren?

Für die monatliche DIOT (Declaración Informativa de Operaciones con Terceros) benötigen Sie mindestens: RFC des Lieferanten, UUID, SubTotal, IVA (aufgeschlüsselt nach Steuersatz – 16 %, 8 %, 0 %), einbehaltene IVA, einbehaltene ISR und UsoCFDI. Die DIOT verlangt, dass die IVA nach Steuersatz gemeldet wird. Ihre Extraktionsausgabe muss die IVA daher nach Steuersatz-Code trennen und nicht als einzelnen Gesamtbetrag angeben. Das Feld Exportación bestimmt zudem, ob es sich um eine Inlands- oder Exporttransaktion handelt – die DIOT trennt diese Kategorien.

Wie verarbeite ich eine PPD-Rechnung, wenn nur das PDF verfügbar ist?

Wurde die ursprüngliche Ingreso-CFDI unter PPD ausgestellt und Sie haben nur das PDF, sind die Rechnungsdaten (Positionen, Summen, IVA) aus dem PDF lesbar, aber die Zahlungsdetails fehlen – diese befinden sich in der separat ausgestellten Pago-CFDI. Sie benötigen entweder die ursprünglichen XML-Dateien oder die Pago-CFDI-PDFs, um den Zahlungsabgleich durchzuführen. Ein KI-Extraktionstool, das sowohl PDF-Rechnungen als auch Pago-CFDI-Dokumente verarbeitet, kann die Zahlungs-UUID-Referenzen in einem einzigen Schritt ausgeben, wenn Sie Spalten für die Complemento-de-Pago-Felder einfügen.

Berücksichtigt die CFDI-Extraktion automatisch die unterschiedlichen PAC-PDF-Layouts?

Vorlagenbasierte OCR-Tools benötigen eine separate Vorlage für jedes PAC-Layout – Finkok, SW sapien, Digifact, FacturAPI und das kostenlose SAT-Tool erzeugen alle visuell unterschiedliche PDFs aus denselben XML-Daten. KI-gestützte semantische Extraktionstools, die Dokumente durch das Verständnis der Feldbedeutung und nicht der Feldposition lesen, verarbeiten automatisch alle PAC-Layouts ohne individuelle PAC-Konfiguration. Dieselbe Extraktionskonfiguration, die für eine Finkok-gestempelte CFDI funktioniert, funktioniert auch für eine, die von einem anderen PAC gestempelt wurde.

Ist die PDF-Darstellung für Extraktionszwecke rechtlich gültig?

Für AP-Workflows und Abstimmungszwecke ist die Datenextraktion aus dem PDF betrieblich ausreichend – das PDF enthält dieselben Rechnungsdaten wie das XML. Nach mexikanischem Steuerrecht (CFF Artikel 30) ist jedoch nur das XML rechtlich gültig. Für die Prüfungsaufbewahrung müssen Sie das originale XML unabhängig vom verwendeten Extraktionsformat archivieren. Ein praktischer Workflow ist die Extraktion aus dem empfangenen Format (meist PDF), aber die Archivierung des XML in einem strukturierten Repository für die vorgeschriebene fünfjährige Aufbewahrungsfrist gemäß NOM-151-SCFI-2016.

Kann ich mit demselben Tool Daten aus Nómina-(Gehalts-)CFDIs extrahieren?

Ja, wenn das Extraktionstool eine feldspezifische Spaltenbenennung unterstützt, die mit den Angaben im Gehaltsdokument übereinstimmt. Der Complemento de Nómina enthält über 50 Felder – Gesamtbezüge, Gesamtabzüge, einbehaltene ISR, IMSS, INFONAVIT sowie einzelne Einkommens- und Abzugsartcodes. Ein KI-Tool, das Dokumente semantisch liest, kann diese Felder extrahieren, wenn Sie die Spalten nach den benötigten Gehaltsdatenpunkten benennen. Die Genauigkeit ist bei gedruckten Nómina-PDFs höher als bei handschriftlichen Gehaltsaufzeichnungen, und die hierarchische Struktur der Nómina-Ergänzungen führt dazu, dass die XML-Version für tief verschachtelte Felder wie Percepciones/Percepcion/TipoPercepcion zuverlässigere Ergebnisse liefert als die visuelle PDF-Version.

Was passiert bei Stornierung eines CFDI – muss ich erneut extrahieren?

Die CFDI-Stornierung folgt einem Empfänger-Zustimmungsmodell. Wenn ein Lieferant eine Rechnung storniert (Grundcodes 01–04), muss der Empfänger die Stornierung innerhalb von 72 Stunden annehmen oder ablehnen. Bei Annahme wird der ursprüngliche CFDI ungültig, und bei Ausstellung eines Ersatzbelegs (Grundcode 01) wird eine neue UUID vergeben. Ihr Extraktionsworkflow muss diesen Lebenszyklus abbilden: entweder durch Markieren stornierter UUIDs in Ihrer Datenbank und Import des Ersatzbelegs oder durch Pflegen einer „CFDI-Status“-Spalte (aktiv/storniert), die beim Prüfen des SAT-Stornierungsfeeds aktualisiert wird. Automatisierte Extraktionstools mit Verarbeitungshistorie können den Ersatz-CFDI erneut einlesen und den ursprünglichen als ersetzt kennzeichnen – dies erfordert jedoch entweder das originale XML oder eine persistente Datenbank zuvor extrahierter UUIDs.

Was mache ich mit den Complemento-de-Pago-Feldern in meiner Ausgabe?

Die Complemento-de-Pago-Felder – insbesondere die referenzierte UUID, der Zahlungsbetrag, das Zahlungsdatum und der offene Saldo – sollten in dieselbe Tabelle extrahiert werden, die Ihre Ingreso-Rechnungsdaten enthält. Der empfohlene Ansatz ist, sie als zusätzliche Spalten in die Batch-Ausgabe aufzunehmen: Bei PPD-Rechnungen liefert die Extraktion sowohl die Basisdaten der Rechnung als auch die Zahlungsfelder aus dem Pago CFDI. Anschließend können Sie mit einem SVERWEIS (oder einer vergleichbaren Funktion) die Pago-UUID-Referenz mit der ursprünglichen Ingreso-UUID abgleichen und so feststellen, welche Rechnungen vollständig beglichen sind und welche noch offen stehen. Dies eliminiert den manuellen Abgleichsschritt, der bei der monatlichen CFDI-Abstimmung die meiste Zeit in Anspruch nimmt.

Die Lücke zwischen „Ich habe CFDI-Dokumente“ und „Mein Buchhaltungssystem hat die Daten“ ist keine technologische Lücke – es ist eine Formatübersetzungslücke. Der richtige Extraktionsworkflow schließt diese Lücke in Minuten, nicht in Stunden.

Die CFDI-Datenextraktion ist grundsätzlich nicht schwierig. Das XML ist strukturiert. Das PDF enthält dieselben Daten. Die Complementos sind in den veröffentlichten XSDs des SAT dokumentiert. Was es in der Praxis schwierig macht, ist die Vielfalt der Formate, die Unterschiedlichkeit der PAC-Layouts, die hierarchische Verschachtelung von Steuer- und Complemento-Daten und die Tatsache, dass die meisten Extraktionsworkflows für flache, positionsbasierte Dokumente konzipiert sind, die jedes Mal gleich aussehen. Ein semantischer Ansatz – der Dokumente liest, indem er versteht, was jedes Feld ist, nicht wo es sitzt – bewältigt all diese Komplexitäten mit einer einzigen Felddefinition. Sie definieren die Spalten. Die KI findet die Daten. Das Format wird irrelevant.

Wenn Sie heute mexikanische Lieferantenrechnungen verarbeiten und mehr Zeit damit verbringen, Daten zwischen Dokumenten zu verschieben, als sie zu nutzen, ist der nächste Schritt klar: Nehmen Sie eine Stichprobe – 10 bis 20 CFDI-Dateien in beliebigem Format – und lassen Sie sie durch einen KI-Extraktionsworkflow laufen. Die Lücke zwischen „Ich habe die Dokumente“ und „Meine Tabelle hat die Daten“ ist kleiner, als der manuelle Prozess erscheinen lässt.

Schluss mit Abtippen — lassen Sie KI Ihre Dokumente lesen
Bild oder PDF hochladen — strukturierte Daten in 10 Sekunden
Jetzt testen
Keine Anmeldung · Keine Kreditkarte · Ergebnis in 10 Sekunden

Dieser Artikel ist Teil der ImageToTable.ai-Anleitungsreihe zur Rechnungsdatenextraktion. Für einen breiteren Überblick siehe Was ist Rechnungsdatenextraktion? und Was ist OCR?. Für eine Einführung in CFDI für Anfänger lesen Sie Was ist ein CFDI?. Für ein praktisches Schritt-für-Schritt-Extraktionstutorial, das jedes CFDI-Format abdeckt, siehe Mexikanische CFDI-Rechnungsdatenextraktion nach Excel. Für einen tieferen Einblick, warum die CFDI-Verarbeitung traditionelle AP-Workflows vor Herausforderungen stellt, lesen Sie Warum die mexikanische CFDI-Rechnungsverarbeitung schwieriger ist, als die meisten Teams erwarten.

📮 contact email: [email protected]