Extraction de données CFDI :
Le guide complet des factures électroniques mexicaines
Un CFDI n'est pas un document à lire — c'est un enregistrement fiscal à décoder correctement. Le système de facturation électronique obligatoire du Mexique, imposé par le SAT depuis 2014, produit des factures sous forme de fichiers XML portant un UUID de 36 caractères, des RFC de l'émetteur et du récepteur, des codes de régime fiscal et — selon le type de transaction — un ou plusieurs complementos structurés contenant les données réelles de paiement, de paie ou de douane. Extraire ces données dans un tableur nécessite de comprendre une architecture documentaire conçue pour la validation gouvernementale en temps réel, pas pour la lisibilité humaine. Ce guide couvre l'ensemble du paysage : les six types de documents CFDI, le système de complementos, toutes les méthodes d'extraction disponibles, et comment intégrer les résultats avec le logiciel comptable que votre équipe mexicaine utilise déjà.
Ce qui rend la CFDI différente de toute autre facture
Chaque facture que vous avez jamais traitée provenant d'un fournisseur américain, européen ou asiatique suit le même schéma de base : le fournisseur émet un document, vous le recevez, et les données — numéro de facture, date, montant, taxe — figurent sur le document lui-même. Le document est la source de vérité. La CFDI inverse entièrement ce modèle.
Une CFDI (Comprobante Fiscal Digital por Internet) est un document XML qui doit être validé et timbré par un PAC (Proveedor Autorizado de Certificación) agréé par le gouvernement avant de devenir juridiquement valide. C'est ce qu'on appelle le modèle de clearance : l'émetteur génère le XML, le soumet à un PAC, le PAC vérifie la structure et la signature numérique, applique un timbre fiscal (cachet numérique), et transmet une copie au SAT — l'autorité fiscale mexicaine — en temps réel. Ce n'est qu'après cette poignée de main à trois que la facture existe en tant que document légal. L'UUID (Folio Fiscal) attribué par le SAT à ce moment devient l'identifiant permanent qui lie cette transaction à chaque audit, paiement et déclaration fiscale ultérieurs.
Cela a une conséquence pratique qui surprend la plupart des équipes AP traitant pour la première fois avec des fournisseurs mexicains : le fichier XML est la facture juridiquement valide. Le PDF qui arrive joint au même courriel est une impression décorative — utile pour la relecture humaine, mais sans valeur légale. Selon l'article 30 du CFF, l'émetteur et le destinataire doivent conserver le XML original de la CFDI pendant au moins cinq ans. Se débarrasser du XML en ne gardant que le PDF crée un risque d'audit que de nombreuses équipes découvrent seulement lorsque le SAT demande des documents.
La version actuelle, CFDI 4.0, est obligatoire depuis avril 2023. Elle a introduit une validation plus stricte du destinataire : le RFC, le nom légal et le code postal du domicile fiscal du destinataire doivent correspondre exactement au registre des contribuables du SAT. Les factures en version 3.3 ne sont plus acceptées. Pour quiconque construit un flux d'extraction CFDI, cela signifie que chaque document traité suit le schéma 4.0 — une cible cohérente pour l'extraction, mais qui comporte plus de champs obligatoires que les versions précédentes.
Le problème central de l'extraction CFDI n'est pas que les données manquent. C'est que les données vivent dans un format conçu pour la clearance gouvernementale, et non pour la consommation dans un tableur — et le pont entre les deux est ce que la plupart des équipes peinent à construire.
Les six types de documents CFDI — et quand les rencontrer
Le CFDI n'est pas un type de document unique. Le SAT définit six types de comprobante distincts, chacun avec ses propres règles de schéma, champs obligatoires et exigences d'extraction. Si vous traitez des factures provenant de plus de quelques fournisseurs mexicains, vous en rencontrerez la plupart.
| Type | Code | Quand apparaît-il | Complexité d'extraction |
|---|---|---|---|
| Ingreso | I | Facture de vente standard — revenus de biens ou services. ~85 % de tous les CFDI que vous recevrez. | Schéma de base. Ventilation de la TVA, UsoCFDI requis. |
| Egreso | E | Notes de crédit, remboursements, remises — réductions sur des factures Ingreso émises précédemment. | Doit référencer l'UUID d'origine. Nécessite un rapprochement entre documents. |
| Pago | P | Reçu de paiement — émis lorsqu'une facture PPD est réglée partiellement ou totalement. | Élevée. Contient le Complemento de Pago avec des références UUID par paiement. |
| Nómina | N | Reçu de paie — obligatoire pour chaque paiement d'employé. Le SAT l'utilise pour recouper l'impôt sur le revenu et la sécurité sociale. | Élevée. Complément de plus de 50 champs avec IMSS, INFONAVIT, SAR et autres types de déductions. |
| Traslado | T | Document de transfert — mouvement de marchandises sans vente (transferts de stock, consignation, Carta Porte). | Moyenne. Nécessite le complément Carta Porte pour les transports de fret. |
| Retenciones | R | Document de retenue — déclare les impôts retenus (ISR, TVA) sur les paiements à des tiers. | Utilise un XSD séparé. Ne fait pas partie du schéma CFDI de base. |
Le type de document qui génère le plus de frictions d'extraction en pratique est le Pago. Lorsqu'un fournisseur émet une facture avec des conditions de paiement PPD, la facture elle-même contient les lignes d'articles et les totaux, mais pas les détails de paiement. Chaque fois que l'acheteur effectue un paiement, le fournisseur émet un CFDI de Pago séparé contenant un Complemento de Pago qui spécifie quel UUID est payé, pour quel montant, à quelle date et par quel moyen. Une équipe AP traitant 40 factures PPD peut avoir 60 à 80 CFDI à rapprocher — chacun nécessitant une référence croisée UUID entre l'Ingreso et son ou ses complements de paiement.
Champs principaux, catalogues SAT et leur signification pour votre feuille de calcul
Comprendre quels champs extraire n'est pas qu'une question technique — cela détermine si votre résultat est utilisable pour la déclaration DIOT, le rapprochement du crédit de TVA et la réponse aux audits. Chaque champ d'un CFDI correspond à un code de catalogue SAT, et le même champ peut avoir des conséquences fiscales différentes selon le code sélectionné.
Champs au niveau de l'en-tête (nœud Comprobante)
| Champ | XPath (simplifié) | Pourquoi c'est important |
|---|---|---|
| UUID (Folio Fiscal) | /cfdi:Comprobante/Complemento/TimbreFiscalDigital/UUID | Clé primaire de chaque transaction. Utilisée pour le rapprochement des paiements, le suivi des annulations et la piste d'audit. |
| RFC Émetteur / Récepteur | /cfdi:Comprobante/Emisor/@Rfc, /Receptor/@Rfc | ID fiscal des deux parties. Un seul caractère erroné invalide la dépense pour déduction fiscale. |
| Régime Fiscal (Émetteur) | /cfdi:Comprobante/Emisor/@RegimenFiscal | Détermine les règles fiscales applicables au fournisseur — personne physique vs morale, RESICO vs régime général. |
| Date | /cfdi:Comprobante/@Fecha | Horodatage ISO 8601 d'émission. Le SAT l'utilise pour l'affectation de la période fiscale. |
| Série + Folio | /cfdi:Comprobante/@Serie, @Folio | Numérotation interne des factures du fournisseur — utile pour le rapprochement avec les relevés fournisseurs. |
| Sous-total / Total | /cfdi:Comprobante/@SubTotal, @Total | Montants avant impôt et final. Le total doit être égal au sous-total + TVA transférée − TVA retenue. |
| Monnaie + Taux de change | /cfdi:Comprobante/@Moneda, @TipoCambio | Code monnaie (MXN, USD, EUR) et taux de change si ce n'est pas en pesos mexicains. |
| Méthode de paiement / Forme de paiement | /cfdi:Comprobante/@MetodoPago, @FormaPago | PUE (unique) vs PPD (échéances) — détermine si un Complément de Paiement est attendu. |
| Usage CFDI | /cfdi:Comprobante/@UsoCFDI | Code d'usage du destinataire — G01 (acquisitions), G03 (dépenses), D01 (automobile), P01 (PPD). Détermine l'éligibilité au crédit de TVA. |
| Exportation | /cfdi:Comprobante/@Exportacion | Champ obligatoire CFDI 4.0. 01=domestique, 02=exportation définitive. Sépare les factures pour le rapport DIOT. |
Ventilation des taxes : TVA, retenues et IEPS
La structure fiscale d'un CFDI se situe en dessous du niveau du concept (ligne d'article), imbriquée dans chaque Concepto. Cela signifie que le taux et le montant de la TVA sont par ligne d'article, et non des agrégats au niveau de la facture. L'extraction doit les additionner si votre résultat nécessite une seule ligne de taxe par facture, mais les données sous-jacentes sont granulaires :
- TVA 16 % — taux standard appliqué à la plupart des biens et services. La région frontalière (frontière nord et sud) bénéficie d'un taux réduit de 8 % sous certaines conditions.
- TVA 0 % — s'applique aux exportations (Exportación=02/03) et à certains produits alimentaires de base, médicaments et fournitures agricoles.
- TVA retenue — le bénéficiaire peut être tenu de retenir les deux tiers de la TVA et de la reverser directement au SAT. Le CFDI affiche à la fois
ImpuestosTrasladados(TVA facturée par le fournisseur) etImpuestosRetenidos(TVA retenue par l'acheteur). - ISR retenu — retenue de 10 % sur les services fournis par des personnes physiques, 1,67 % sur les achats auprès du régime général, 20 % sur les paiements d'intérêts. Ceux-ci doivent être déclarés dans le DIOT mensuel.
- IEPS — taxe d'accise sur des biens spécifiques : alcool, tabac, essence, boissons sucrées. Chaque catégorie de produit correspond à un taux d'IEPS différent (3 % à 160 %).
Pour l'extraction, le point critique est qu'un seul CFDI peut comporter plusieurs combinaisons de taxes sur différentes lignes d'articles. Une seule facture d'un distributeur vendant à la fois des biens standard (TVA 16 %) et des produits soumis à l'IEPS aura des articles à 16 %, à 16 %+IEPS, et potentiellement à 0 %. Votre résultat d'extraction doit soit préserver le détail fiscal au niveau de la ligne, soit agréger correctement par taux.
La couche Complément : là où la plupart des guides d'extraction s'arrêtent
Un complément est un addendum XML structuré qui étend le schéma CFDI de base pour des types de transactions spécifiques. Le CFDI de base couvre l'en-tête de la facture et les lignes d'articles. Tout le reste — détails de paiement, ventilations de paie, données douanières, informations de transport — se trouve dans les compléments. Pour les équipes AP traitant des factures mexicaines, trois compléments sont les plus importants.
Complément de Paiement (Complemento de Pago)
Attaché à chaque CFDI de Pago, ce complément est la plus grande source de complexité d'extraction dans la gestion des comptes fournisseurs mexicains réelle. Lorsqu'un fournisseur émet une facture avec des conditions PPD (MétodoPago=PPD), la facture Ingreso d'origine ne contient pas de données de paiement. Chaque fois que l'acheteur paie — que ce soit en totalité, en partie, ou à terme différé — le fournisseur émet un CFDI de Pago dont le Complément de Paiement enregistre :
- L'UUID de la facture Ingreso d'origine en cours de paiement
- Le montant du paiement appliqué à cet UUID
- La date de paiement et le mode de paiement (virement, chèque, espèces, carte)
- La devise et le taux de change au moment du paiement (critique lorsque la facture d'origine était en USD)
- Le solde impayé après ce paiement (saldo insoluto)
Une facture Ingreso peut être réglée par plusieurs CFDI de Pago — chacun référençant le même UUID avec un montant de paiement différent. Le défi d'extraction n'est pas technique (l'UUID est toujours présent) mais procédural : la plupart des équipes AP n'extraient jamais le Complément de Paiement, laissant les données de paiement dans un document séparé que rien dans le flux de travail ne relie à la facture d'origine.
Une extraction des lignes d'articles CFDI qui s'arrête à l'en-tête de la facture et laisse les compléments intacts ne capture qu'environ 60 % des données dont votre équipe AP a réellement besoin.
Complément de Paie (Complemento de Nómina)
Les employeurs au Mexique doivent émettre un CFDI de Nómina pour chaque paiement à un employé — salaire, primes, commissions, primes de vacances, indemnités de départ et prime de Noël (aguinaldo). Le Complément de Paie est l'un des documents les plus denses en champs du système CFDI, contenant plus de 50 champs structurés, notamment :
- CURP de l'employé et numéro de sécurité sociale IMSS
- Salaire de base et salaire journalier (Salario Base de Cotización)
- Revenus ordinaires (percepciones) ventilés par code de type — Sueldos, Aguinaldo, Prima Vacacional, PTU
- Déductions (deducciones) — ISR retenu, cotisations IMSS, prêts INFONAVIT, SAR/Afore, prêts sur pension
- Heures supplémentaires (Horas Extra) avec type de temps et pourcentage
- Paiement net total
Pour les employeurs multi-entités, l'extraction de la paie signifie traiter des centaines de CFDI de Nómina par cycle de paie. Chaque employé produit un CFDI par paiement, et chacun nécessite que les champs du complément soient aplatis dans un tableur RH ou de déclaration de paie.
Complemento de Comercio Exterior
Obligatorio cuando Exportación=02 (exportación definitiva con clave A1) o Exportación=03 (exportación definitiva con clave A2). Este complemento incorpora los datos aduaneros de las operaciones transfronterizas:
- Número de pedimento (identificador de declaración aduanera)
- RFC del exportador y dirección completa
- Identificador fiscal extranjero del receptor
- Código INCOTERM
- Detalle por línea: fracción arancelaria, unidad de medida aduanera, valor en USD de la mercancía
- País de origen y destino
La versión 2.0 de este complemento está integrada con CFDI 4.0 desde enero de 2024. Para las empresas que exportan mercancías desde México, la extracción que captura tanto los campos base del CFDI como los del complemento de comercio exterior es esencial para conciliar facturas de flete con declaraciones aduaneras.
Por qué distintos PAC implican distintos diseños de PDF
Todo CFDI parte del mismo esquema XML — Anexo 20 versión 4.0, definido en el XSD publicado por el SAT. El XML es consistente independientemente del PAC que lo timbre. Pero la representación en PDF, que es lo que realmente ven la mayoría de los equipos de cuentas por pagar, depende enteramente de cómo cada PAC elige renderizar el XML en un formato visual.
En la práctica, un PDF de CFDI timbrado por Finkok ordenará los campos de forma visual diferente a uno timbrado por SW sapien, Digifact, FacturAPI o la herramienta gratuita del SAT. Los datos son idénticos. El diseño no. Para las herramientas de OCR basadas en plantillas que dependen de zonas de extracción de posición fija, cada diseño de PAC requiere una plantilla distinta. Una empresa que recibe facturas de 20 proveedores que usan colectivamente 8 PAC diferentes necesitaría 8 plantillas de extracción — y no capturaría las facturas del noveno PAC que aún no hubiera configurado.
Aquí es donde la extracción semántica — una IA que lee un documento comprendiendo lo que cada campo significa en lugar de dónde está — cambia la economía del procesamiento de CFDI. Una herramienta de extracción semántica que sabe la diferencia entre un UUID y un RFC puede encontrar ambos campos en cualquier parte de la página, ya sea que el PAC los haya colocado arriba, a la izquierda, a la derecha, abajo o dentro de un recuadro. El diseño del PAC se vuelve irrelevante, lo que significa que una sola configuración de extracción cubre a todos los proveedores y todos los PAC de su cartera.
Méthodes d'extraction comparées : quelle approche pour votre flux CFDI ?
Les équipes choisissent différentes approches d'extraction CFDI selon le volume de documents, la diversité des formats, les compétences techniques et le budget. Le tableau suivant compare les quatre méthodes principales selon les critères clés pour le traitement des factures mexicaines.
| Dimension | Saisie manuelle | Analyse XML (script) | OCR par modèle | Extraction IA sémantique |
|---|---|---|---|---|
| Temps de configuration | Aucun | 1–3 jours (écrire le script, tester) | 1–2 heures par mise en page PAC | ~15 minutes |
| Gère toutes les mises en page PAC | Oui (à l'œil) | N/A (travaille sur XML) | Non — chaque mise en page nécessite un modèle | Oui — indépendant de la mise en page |
| Gère les scans/Photos | Oui | Non | Partiel — se dégrade avec la qualité | Oui |
| Gère les complementos | Si l'utilisateur sait où chercher | Oui (si le script est écrit pour) | Non — complementos absents du PDF | Oui — si l'outil gère les deux sources |
| Temps pour 50 CFDIs | ~3–4 heures | ~2 minutes (par lot) | ~15 minutes + corrections | ~2–5 minutes |
| Taux d'erreur (par champ) | ~3–5 % (fautes de frape, transposition) | ~1 % (non-conformité du schéma) | ~8–15 % (non-conformité de la mise en page) | ~1–3 % |
| Compétences techniques requises | Aucune | Python/XPath/XML | Moyen (configuration de zone) | Aucune |
| Passage à l'échelle (500+/mois) | ❌ | ✅ | ⚠️ | ✅ |
Le choix entre l'analyse XML et l'extraction sémantique par IA n'est pas toujours évident. Si chaque fournisseur envoie le XML CFDI brut et que votre équipe maîtrise le scripting, l'analyse XML avec XPath ou une bibliothèque comme lxml en Python permet une extraction propre et directe des champs depuis les données structurées. La limite est que l'analyse XML ne peut pas lire les factures scannées, ni interpréter la représentation visuelle PDF lorsque le XML n'est pas joint, et nécessite une maintenance active lors des mises à jour du schéma SAT (comme lors de la migration 3.3→4.0).
L'extraction sémantique par IA, en revanche, fonctionne à partir de tout document visuel — PDF, image scannée, photo de téléphone — et ne nécessite pas d'entrée XML structurée. Les modèles de vision modernes, entraînés sur des milliers de mises en page de factures, peuvent localiser les champs UUID, RFC et IVA en comprenant la signification de ces libellés, où qu'ils apparaissent dans le document. Pour les équipes qui reçoivent un mélange de pièces jointes PDF (sans XML) et de documents scannés, c'est la seule option évolutive.
Les fichiers sont traités en toute sécurité et non stockés. Essayez-le sur un vrai CFDI PDF ou XML.
Comment l'IA gère les documents CFDI — dans les trois formats
Le scénario le plus courant pour les équipes AP est de recevoir un mélange de fichiers XML, de pièces jointes PDF et de documents scannés provenant de différents fournisseurs utilisant différents PAC. Créer un workflow distinct pour chaque format génère de la maintenance et des lacunes de traitement. Une approche d'extraction par IA qui traite les trois comme sources d'entrée avec une seule définition de champ simplifie considérablement les choses.
ImageToTable.ai gère l'extraction CFDI via son paradigme Custom Column Extraction — vous définissez les colonnes souhaitées en sortie, et l'IA localise chaque valeur en comprenant la signification du champ, et non sa position sur la page. Pour CFDI, le workflow est :
UUID (Folio Fiscal), RFC Emisor, RFC Receptor, SubTotal, IVA Tasa, IVA Monto, Total, UsoCFDI, MétodoPago, Moneda. Pour les factures PPD, ajoutez UUID Pagado et Monto del Pago pour capturer les champs Complemento de Pago.Cette approche résout automatiquement le problème de mise en page des PAC : l'IA ne dépend pas de la position fixe des champs, donc un CFDI généré par Finkok (avec UUID en haut à droite de la deuxième page) et un autre par FacturAPI (avec UUID en bas à gauche du pied de page) produisent tous deux la même sortie structurée.
Pour l'extraction des compléments spécifiquement, lors du traitement direct des fichiers XML, l'IA peut naviguer dans la structure hiérarchique — en parcourant le nœud /Complemento/Pagos d'un CFDI de Pago pour extraire l'UUID référencé, le montant du paiement et la date. Pour les représentations PDF du même CFDI de Pago, l'IA lit les champs du complément là où le PAC a choisi de les afficher sur le document visuel.
Intégration des données CFDI avec les logiciels comptables mexicains
Les données CFDI extraites ne sont utiles que si elles parviennent au système utilisé par votre équipe comptable. L'écosystème des logiciels comptables mexicains diffère considérablement de celui des États-Unis ou de l'Europe : les acteurs dominants sont locaux et chacun a des exigences spécifiques d'importation de données.
CONTPAQi
CONTPAQi est la suite de comptabilité et de gestion la plus utilisée au Mexique, couvrant la comptabilité (Contabilidad), la facturation électronique (Factura Electrónica), la paie (Nóminas) et les opérations commerciales (Comercial). CONTPAQi importe nativement le XML CFDI pour vérification, mais pour l'analyse de données en masse — rapprocher 200 factures fournisseurs avec des codes budgétaires, créer des rapports de dépenses par catégorie UsoCFDI, ou préparer les saisies DIOT — les données doivent être dans un format Excel qui correspond au plan comptable de CONTPAQi. Les colonnes extraites comme RFC, UUID et montant de l'IVA alimentent directement l'auxiliar de cuentas de CONTPAQi lorsqu'elles sont importées sous forme d'écriture de journal par lot.
Aspel SAE / COI / NOI
Aspel est la deuxième plateforme comptable la plus courante dans les PME mexicaines, avec les modules SAE (administratif), COI (comptabilité) et NOI (paie). Comme CONTPAQi, Aspel peut traiter le XML CFDI pour la vérification individuelle des factures, mais sa couche de reporting fonctionne mieux lorsque les données CFDI par lot sont pré-compilées dans un tableau Excel correspondant aux modèles d'importation d'Aspel. La pratique courante chez les contrôleurs mexicains consiste à tenir un registre CFDI auxiliaire dans Excel — une ligne par facture, colonnes pour RFC, UUID, folio, taux d'IVA et retenue — et à le rapprocher mensuellement du grand livre d'Aspel. L'extraction automatisée transforme ce registre auxiliaire d'un exercice de saisie manuelle en une exportation directe.
SAP et Oracle NetSuite
Les grandes entreprises opérant au Mexique utilisent généralement SAP ou Oracle NetSuite avec des localisations pour la conformité CFDI. Ces systèmes gèrent la validation XML et la soumission PAC automatiquement via leurs modules CFDI intégrés. Cependant, le défi passe de la conformité au rapprochement : les équipes achats et comptabilité fournisseurs doivent faire correspondre les données CFDI extraites avec les bons de commande, les bons de réception de marchandises et les conditions contractuelles des fournisseurs. Un flux de travail d'extraction par IA qui produit des données CFDI sous forme de lignes structurées — avec UUID, RFC, codes de produits par ligne (c_ClaveProdServ) et ventilation fiscale — alimente directement les processus d'importation par lot de MIRO (vérification des factures logistiques) de SAP ou de la comptabilité fournisseurs de NetSuite.
Questions fréquentes
L'IA peut-elle extraire des données de fichiers XML CFDI ?
Oui. Les outils d'extraction par IA modernes analysent directement les fichiers XML CFDI en lisant les champs structurés du schéma Anexo 20. Contrairement aux scripts XML purs qui nécessitent des requêtes XPath pour chaque champ, l'extraction par IA gère les variations de schéma et produit les données dans la même structure de colonnes que vous définissez — que la source soit XML, PDF ou une image scannée. C'est particulièrement utile pour les lots hybrides où certains fournisseurs envoient des pièces jointes XML et d'autres des PDF.
Quels champs extraire d'un CFDI pour la déclaration DIOT ?
Pour la DIOT mensuelle (Déclaration Informative des Opérations avec des Tiers), vous avez besoin au minimum de : RFC du fournisseur, UUID, Sous-total, TVA (détaillée par taux — 16 %, 8 %, 0 %), TVA retenue, ISR retenu et UsoCFDI. La DIOT exige que la TVA soit déclarée par taux, votre extraction doit donc séparer la TVA par code de taux plutôt que de fournir un total unique. Le champ Exportación détermine également si une transaction est nationale ou à l'exportation — la DIOT sépare ces catégories.
Comment traiter une facture PPD si seul le PDF est disponible ?
Si le CFDI Ingreso original a été émis en PPD et que vous n'avez que le PDF, les données de la facture (lignes, totaux, TVA) sont lisibles depuis le PDF, mais les détails de paiement ne le sont pas — ils se trouvent dans le CFDI Pago émis séparément. Vous avez besoin soit des fichiers XML originaux, soit des PDF du CFDI Pago pour effectuer le rapprochement des paiements. Un outil d'extraction par IA qui traite à la fois les factures PDF et les documents CFDI Pago peut produire les références croisées UUID de paiement en une seule étape si vous incluez des colonnes pour les champs Complemento de Pago.
L'extraction CFDI gère-t-elle automatiquement les différentes mises en page PDF des PAC ?
Les outils OCR basés sur des modèles nécessitent un modèle distinct pour chaque mise en page de PAC — Finkok, SW sapien, Digifact, FacturAPI et l'outil gratuit du SAT produisent chacun des PDF visuellement différents à partir des mêmes données XML. Les outils d'extraction sémantique par IA, qui lisent les documents en comprenant la signification des champs plutôt que leur position, gèrent automatiquement toutes les mises en page des PAC sans configuration par PAC. La même configuration d'extraction qui fonctionne pour un CFDI tamponné par Finkok fonctionne pour un autre tamponné par n'importe quel autre PAC.
La représentation PDF est-elle légalement valable pour l'extraction de données ?
Pour les workflows AP et le rapprochement, extraire les données du PDF est opérationnellement suffisant — le PDF contient les mêmes données de facture que le XML. Cependant, selon la loi fiscale mexicaine (Article 30 du CFF), seul le XML est légalement valable. Pour la conservation en cas d'audit, vous devez conserver le fichier XML original, quel que soit le format utilisé pour l'extraction quotidienne. Un workflow pratique consiste à extraire depuis le format reçu (le PDF est le plus courant), mais à archiver le XML dans un dépôt structuré pour la période de conservation obligatoire de cinq ans selon la NOM-151-SCFI-2016.
Puis-je extraire les données des CFDIs de Nómina (paie) avec le même outil ?
Oui, si l'outil d'extraction prend en charge le nommage des colonnes au niveau des champs, correspondant à ce qui apparaît sur le document de paie. Le Complemento de Nómina contient plus de 50 champs — total des perceptions, total des déductions, ISR retenu, IMSS, INFONAVIT, et codes individuels de revenus et de types de déductions. Un outil d'IA qui lit les documents sémantiquement peut extraire ces champs si vous nommez les colonnes d'après les données de paie dont vous avez besoin. Cependant, la précision est plus élevée sur les PDF de Nómina imprimés que sur les registres de paie manuscrits, et la structure hiérarchique des compléments de Nómina signifie que la version XML donne généralement des résultats plus fiables que la version PDF visuelle pour les champs profondément imbriqués comme Percepciones/Percepcion/TipoPercepcion.
Que se passe-t-il lorsqu'un CFDI est annulé — dois-je réextraire ?
L'annulation d'un CFDI suit un modèle de consentement du destinataire. Lorsqu'un fournisseur annule une facture (codes motif 01–04), le destinataire doit accepter ou rejeter l'annulation dans les 72 heures. Si acceptée, le CFDI original est annulé, et si un remplacement est émis (code motif 01), un nouvel UUID est attribué. Votre workflow d'extraction doit gérer ce cycle de vie : soit en marquant les UUID annulés dans votre base de données et en important le remplacement, soit en maintenant une colonne « statut CFDI » (actif/annulé) qui est mise à jour lorsque le flux d'annulation du SAT est vérifié. Les outils d'extraction automatisés qui conservent un historique de traitement peuvent réingérer le CFDI de remplacement et marquer l'original comme remplacé, mais cela nécessite soit le XML original, soit une base de données persistante des UUID précédemment extraits.
Que faire avec les champs Complemento de Pago dans mes résultats ?
Les champs Complemento de Pago — notamment l'UUID référencé, le montant du paiement, la date de paiement et le solde impayé — doivent être extraits dans le même tableur que vos données de factures Ingreso. L'approche recommandée consiste à les ajouter comme colonnes supplémentaires dans l'export groupé : pour les factures PPD, l'extraction renvoie à la fois les données de base de la facture et les champs de paiement du CFDI Pago. Vous pouvez ensuite utiliser un RECHERCHEV (ou équivalent) pour faire correspondre la référence UUID Pago à l'UUID Ingreso d'origine, confirmant ainsi quelles factures sont entièrement réglées et lesquelles restent ouvertes. Cela élimine l'étape de recoupement manuel qui prend le plus de temps dans la réconciliation mensuelle des CFDI.
L'écart entre « j'ai des documents CFDI » et « mon système comptable contient les données » n'est pas un écart technologique — c'est un écart de traduction de format. Le bon flux d'extraction comble cet écart en quelques minutes, pas en plusieurs heures.
L'extraction de données CFDI n'est pas fondamentalement difficile. Le XML est structuré. Le PDF contient les mêmes données. Les complementos sont documentés dans les XSD publiés par le SAT. Ce qui la rend difficile en pratique, c'est la diversité des formats, la variabilité des mises en page des PAC, l'imbrication hiérarchique des données fiscales et des complementos, et le fait que la plupart des flux d'extraction ont été conçus pour des documents plats et positionnels qui se ressemblent à chaque fois. Une approche sémantique — qui lit les documents en comprenant ce qu'est chaque champ, et non où il se trouve — gère toutes ces complexités à partir d'une seule définition de champ. Vous définissez les colonnes. L'IA trouve les données. Le format devient sans importance.
Si vous traitez aujourd'hui des factures de fournisseurs mexicains et passez plus de temps à déplacer des données entre les documents qu'à les utiliser, la prochaine étape est simple : prenez un lot d'essai — 10 à 20 fichiers CFDI dans le format de votre choix — et exécutez-les dans un flux d'extraction par IA. L'écart entre « j'ai les documents » et « mon tableur contient les données » est plus petit que ce que le processus manuel laisse paraître.
Cet article fait partie de la série de guides ImageToTable.ai sur l'extraction de données de factures. Pour une vue d'ensemble, consultez Qu'est-ce que l'extraction de données de factures ? et Qu'est-ce que l'OCR ?. Pour une introduction au CFDI pour débutants, lisez Qu'est-ce qu'un CFDI ?. Pour un tutoriel pratique d'extraction étape par étape couvrant chaque format CFDI, voir Extraction de données de factures CFDI mexicaines vers Excel. Pour un examen plus approfondi des raisons pour lesquelles le traitement des CFDI déroute les workflows AP traditionnels, lisez Pourquoi le traitement des factures CFDI mexicaines est plus difficile que la plupart des équipes ne le pensent.