Vérifier les données extraites par IA :
Une checklist QA en 7 points pour les tableurs
Vous venez d'extraire 300 factures. Le tableur est ouvert — colonnes remplies, lignes peuplées, totaux à droite. Avant de l'envoyer à la comptabilité ou de l'importer dans votre ERP, il y a une étape que la plupart des guides d'extraction de factures oublient : le contrôle qualité côté sortie. Voici la checklist en sept points qui prend 12 minutes et détecte les erreurs qui se transforment en mauvais paiements, dépenses mal catégorisées et déclarations fiscales à rectifier.
Points clés à retenir
- Une décimale non détectée a transformé une facture de 295 $ en un paiement de 2 950 $ — et l'outil d'extraction qui l'a produite affiche toujours 99 % de précision.
- Les erreurs d'extraction ne sont pas aléatoires — elles suivent des schémas, et une seule configuration de décalage de colonne corrompt silencieusement chaque ligne de ce format de document.
- Un contrôle de tableur de 12 minutes détecte ces erreurs récurrentes avant qu'elles ne deviennent des déclarations fiscales amendées — et après le premier lot, les formules s'exécutent toutes seules.
Chaque outil d'extraction produit parfois des erreurs — même ceux qui affichent 99 % de précision sur leur site marketing. Une virgule décalée d'un rang. Une date qui pointe vers la date de livraison au lieu de la date de facture. Un champ de numéro de TVA vide parce que l'IA ne l'a pas trouvé en page 3. Comme l'explique notre guide pratique pour tester la précision d'extraction, « 99 % » est un chiffre sans définition universelle — ce qui compte, c'est de détecter les erreurs avant que les données ne quittent votre tableur.
Cette checklist est conçue pour le moment après l'extraction et avant que quiconque ne touche au fichier. Chaque vérification est indépendante — vous pouvez les effectuer dans n'importe quel ordre — mais ensemble, elles forment un contrôle complet. Appliquez-les à un nouveau lot et vous trouverez au moins une chose qui vous aurait échappé.
Vérification 1 : Alignement des colonnes — Les données sont-elles au bon endroit ?
Le moyen le plus rapide de repérer un problème d'extraction systémique est de parcourir les colonnes verticalement. Quand l'extraction déraille au niveau des colonnes, cela touche généralement des lots entiers — un champ mal interprété décale chaque valeur d'une colonne, ou une confusion de délimiteur place le nom du fournisseur là où devrait se trouver l'adresse.
Que faire : Lisez chaque colonne de haut en bas, pas chaque ligne de gauche à droite. La lecture ligne par ligne est lente et votre cerveau commence à chercher des motifs — vous cessez de voir les données. La lecture par colonne, en revanche, fait ressortir les anomalies. Une adresse dans la colonne « Montant » est impossible à manquer quand on lit verticalement.
- Champs texte : Chaque cellule de la colonne Nom du fournisseur contient-elle quelque chose qui ressemble à un nom — pas une adresse, pas un numéro de téléphone, pas une date ?
- Champs numériques : Si vous avez une colonne Montant et une colonne TVA côte à côte, les ordres de grandeur sont-ils cohérents ? La TVA devrait représenter environ 5 à 25 % du Montant. Si la TVA indique 2 495,00 € et le Montant 2,50 €, ils sont inversés.
- Champs d'identifiant : Numéros de facture, de bon de commande, codes de référence — suivent-ils tous un modèle reconnaissable, ou une ligne a-t-elle reçu un numéro de téléphone par erreur ?
Cette vérification prend 90 secondes pour un tableur de 200 lignes. Si vous trouvez un décalage de colonne, vous avez probablement identifié un biais affectant tous les documents de ce format source — corrigez le mappage des colonnes et réextrayez plutôt que de corriger les lignes une par une.
Vérification 2 : Nombre de lignes vs nombre de fichiers — Avons-nous perdu des documents ?
Rien ne compromet plus vite un lot d'extraction qu'un document manquant. Vous avez transmis 12 factures à la comptabilité, mais seulement 11 lignes sont arrivées dans leur système — le 12e fournisseur envoie un rappel de retard de paiement et vous passez 40 minutes à retracer ce qui s'est passé.
Que faire : Trois vérifications rapides du nombre de lignes :
- Fichiers importés vs lignes du tableur : Si vous avez importé 47 fichiers et que le tableur contient 44 lignes de données (plus un en-tête), trois documents n'ont pas produit de résultat. Le journal d'état de l'outil d'extraction vous indiquera lesquels ont échoué et pourquoi — mais vous ne pouvez pas agir sur un échec dont vous ignorez l'existence.
- Lignes vides : Sélectionnez toute la plage de données, triez par n'importe quelle colonne de texte en ordre croissant. Les lignes vides remontent en haut. Une ligne entièrement vide signifie généralement que le document a été traité mais qu'aucun champ n'a été reconnu — il vaut la peine de vérifier pourquoi.
- Lignes en double : Exécutez
=NB.SI(A:A; A2)sur une colonne d'identifiant comme le numéro de facture. Une valeur de 2 ou plus signifie que le même document a produit deux lignes — soit un import en double, soit un PDF multipage qui aurait dû être fusionné en une seule ligne.
Ces vérifications prennent deux minutes au total. L'écart du nombre de lignes — fichiers importés moins lignes produites — est le contrôle le plus impactant que la plupart des gens sautent parce qu'ils supposent que l'outil l'a géré.
La vérification du nombre de lignes est particulièrement importante lors de l'utilisation de l'extraction par lots — le mode où vous importez plusieurs fichiers à la fois et exportez un tableur fusionné. Un seul fichier qui échoue silencieusement dans un lot de 50 est difficile à remarquer à moins de compter. Dans ImageToTable.ai, le tableau de bord des lots montre l'état de chaque fichier — vert pour terminé, rouge pour échec — donc l'écart du nombre de lignes est visible avant l'export.
Vérification 3 : Validation numérique — Les chiffres sont-ils cohérents ?
Les chiffres sont le domaine où les erreurs d'extraction causent des dommages financiers mesurables. Une virgule mal lue transforme une facture de 295,00 $ en un passif de 2 950,00 $ dans vos registres. Un sous-total lu comme le total signifie que vous approuvez un paiement en déficit de 400 $. Les relations arithmétiques intégrées au document constituent une couche de vérification gratuite — il suffit de les utiliser.
Que faire : Ajoutez trois colonnes calculées à votre tableur de sortie :
| Vérification | Formule | Résultat attendu |
|---|---|---|
| Sous-total + TVA vs Total | =ARRONDI(Sous-total + TVA - Total; 2) | 0,00 |
| Somme des lignes vs Sous-total | =ARRONDI(SOMME(ColLignes) - Sous-total; 2) | 0,00 |
| Qté × Prix unitaire vs Total ligne | =ARRONDI(Qté * PrixUnitaire - TotalLigne; 2) | 0,00 |
Toute ligne dont le résultat n'est pas zéro nécessite une révision. En pratique, un résultat non nul indique généralement l'une de ces trois choses : un séparateur décimal mal lu (le problème virgule-vs-point dans les factures européennes), la mauvaise ligne lue comme le total (l'outil a pris le sous-total d'une section et l'a appliqué à l'ensemble de la facture), ou un champ de quantité mal lu (50 au lieu de 15).
Si votre outil d'extraction prend en charge les colonnes calculées, vous pouvez intégrer ces validations arithmétiques directement dans l'étape d'extraction — l'outil effectue le calcul lors de la lecture du document et signale la ligne avant même qu'elle n'atteigne votre tableur. Cela transforme la vérification d'une formule Excel post-extraction en une barrière toujours active.
Les fichiers sont traités de manière sécurisée et ne sont pas conservés.
Vérification 4 : Validation des dates — Format cohérent, plage raisonnable
Un champ de date indiquant « 01/03/2026 » est correct au format JJ/MM/AAAA. Au format MM/JJ/AAAA, la même chaîne signifie le 3 janvier — soit trois mois plus tôt. Les deux sont des dates calendaires valides. Une seule correspond à ce que le document indique réellement. L'ambiguïté de format est l'erreur d'extraction de date la plus courante, et elle est invisible lors d'une inspection rapide.
Marche à suivre : Trois vérifications des dates, classées par rapidité de détection des erreurs :
- Cohérence du format : Sélectionnez la colonne des dates, appliquez une règle de mise en forme conditionnelle qui met en évidence toute cellule dont l'année ne comporte pas quatre chiffres, ou dont le mois dépasse 12, ou le jour dépasse 31. Une date comme « 2026-15-03 » (mois 15) est une erreur d'extraction évidente — le modèle a halluciné une valeur de mois.
- Plage de dates plausible : Ajoutez
=MIN(ColonneDate)et=MAX(ColonneDate)en haut du tableau. Si votre lot concerne des factures de juin 2026 et que le min est 2019-01-01 ou le max 2028-12-15, quelque chose cloche. Les dates hors plage proviennent généralement du fait que l'IA a lu une date différente sur le document — la date de paiement au lieu de la date de facture, ou une date d'une section totalement différente. - Date de facture vs date d'échéance : Si les deux champs ont été extraits, ajoutez une colonne de vérification simple :
=DateFacture <= DateEcheance. Une date d'échéance avant la date de facture est presque toujours une erreur d'extraction — l'IA a inversé les deux champs.
La vérification de la plage de dates détecte les erreurs les plus coûteuses. Une seule facture extraite avec 2027-03-15 au lieu de 2026-03-15 déplace 4 500 € de dépenses dans le mauvais exercice fiscal. Un auditeur la trouve. Vous la corrigez. Mais la correction vous coûte des heures d'explication et des déclarations rectificatives qui auraient été évitées avec une vérification =MAX() de 30 secondes.
Vérification 5 : Audit des champs manquants — Quels champs sont revenus vides ?
Toutes les cellules vides ne sont pas des erreurs : certains documents n'ont tout simplement pas certains champs. Mais vous devez savoir quels champs sont extraits à 0 % sur l'ensemble du lot, car une colonne universellement vide est presque toujours un problème de configuration, pas une caractéristique du document.
Que faire : Pour chaque colonne demandée, comptez le nombre de lignes contenant des données par rapport au nombre de lignes vides. Dans Excel, sélectionnez la colonne et vérifiez la barre d'état pour le nombre (les cellules vides sont exclues du décompte, le nombre affiché est donc votre taux de remplissage). Ou utilisez =COUNTA(PlageCol) / COUNTA(A:A) pour obtenir un pourcentage.
Guide d'interprétation des taux de remplissage :
- 90-100 % rempli : Normal. Quelques documents manquent réellement ce champ — un fournisseur qui n'imprime pas de numéro de TVA, une facture sans référence de bon de commande.
- 40-90 % rempli : À investiguer. Le champ existe sur la plupart des documents, mais le moteur d'extraction ne le trouve pas de manière fiable. Vérifiez si le nom de colonne que vous avez spécifié correspond à la terminologie du document — « Fournisseur » vs « Vendeur » vs « Expéditeur » peut donner des taux de réussite différents selon les formats de documents.
- 0-40 % rempli : Problème de configuration probable. Le nom de colonne est peut-être trop spécifique (« Référence d'avis de remise » alors que les documents utilisent « Réf. paiement »), ou le champ n'est pas un candidat à l'extraction directe — il nécessite une extraction inférée, où l'IA déduit la valeur du contexte plutôt que de la lire dans un champ étiqueté.
Une colonne avec un taux de remplissage de 5 % alors que vous attendiez 95 % signifie l'une des deux choses suivantes : soit les documents ne contiennent pas ce que vous avez demandé (vérifiez un échantillon), soit l'outil d'extraction ne fait pas correspondre le nom de colonne au bon champ du document (ajustez le nom de colonne et réextrayez). Dans les deux cas, détecter cela avant que les données ne soient transmises en aval évite le courriel « pourquoi cette colonne est-elle vide ? » du service comptabilité trois jours plus tard.
Vérification 6 : Logique inter-champs — Relations qui doivent tenir
La validation champ par champ (Vérification 3 pour l'arithmétique ; Vérification 4 pour les dates) détecte les erreurs individuelles. La logique inter-champs détecte les erreurs où chaque champ semble plausible isolément, mais où la relation entre les champs est impossible. Ce sont les erreurs les plus difficiles à repérer à l'œil nu et les plus faciles à attraper avec une formule.
Marche à suivre : Élaborez quelques règles logiques propres à votre type de document. Commencez par ces vérifications transversales et ajoutez les vôtres :
| Type de document | Règle logique | Structure de formule |
|---|---|---|
| Facture | Date de facture ≤ Date d'échéance | =InvoiceDate <= DueDate |
| Facture / BC | Total ligne = Qté × Prix unitaire | =ROUND(Qty * UnitPrice - LineTotal, 2)=0 |
| Facture | Montant TVA ≈ Taux TVA × Montant net | =ABS(Tax / NetAmount - TaxRate) < 0.02 |
| Reçu / Note de frais | Date dans la période de déclaration | =AND(Date >= PeriodStart, Date <= PeriodEnd) |
| Feuille de temps | Heure de fin > Heure de début | =EndTime > StartTime |
| Relevé bancaire | Solde de clôture = Solde d'ouverture + Σ transactions | =ROUND(Opening + SUM(TxnRange) - Closing, 2)=0 |
Chaque règle produit une colonne VRAI/FAUX. Toute ligne FAUX nécessite une vérification manuelle. Sur un lot de 200 documents, vous signalerez généralement 2 à 5 lignes — soit 2 à 5 erreurs d'extraction que vous pouvez corriger avant qu'elles ne deviennent des erreurs comptables. L'alternative est de les découvrir lors du rapprochement de fin de mois, ce qui coûte beaucoup plus de temps et crée une pression menant à des corrections précipitées.
Pour une présentation détaillée de la façon dont l'arithmétique inter-champs détecte les erreurs déguisées, consultez notre guide sur la vérification des résultats d'extraction avec un cadre de contrôle par échantillonnage en couches, qui couvre les quatre vérifications arithmétiques en détail avec un diagnostic par type d'erreur.
Vérification 7 : Contrôles ponctuels — Choisir 3 lignes, comparer à l'original
Les vérifications automatisées (Vérifications 1 à 6) détectent les erreurs structurelles — celles qui suivent des schémas. Mais toutes les erreurs ne suivent pas de schémas. Une erreur ponctuelle de lecture sur un seul document — l'IA confondant deux lignes similaires, ou extrayant 15 au lieu de 5 pour une quantité sur un scan délavé — passe la plupart des contrôles basés sur des formules, car le nombre semble raisonnable et l'arithmétique est équilibrée. Un humain qui regarde le document source la repère en 20 secondes.
Marche à suivre : Choisissez 3 lignes au hasard dans le tableur. Ouvrez les documents originaux correspondants côte à côte. Vérifiez chaque champ. Vous cherchez tout ce qui ne correspond pas — un chiffre erroné, un champ inversé, une ligne manquante. Il ne s'agit pas de couverture. Il s'agit de détecter le type d'erreur que l'échantillonnage statistique et la validation par formules ne voient pas.
Quelles 3 lignes ? Ne prenez pas les trois premières — ce sont généralement les documents que vous avez vérifiés lors de la configuration de l'extraction. Ne prenez pas de valeurs aberrantes évidentes — les vérifications automatisées les ont déjà signalées. Utilisez =ALEA.ENTRE.BORNES(2; NBVAL(A:A)) trois fois et vérifiez ces lignes. Si les trois sont correctes, vous avez une confiance raisonnable dans la qualité du lot. Si une ou plusieurs présentent des erreurs, passez à 10 lignes aléatoires. Si vous trouvez des erreurs dans les 10, le lot nécessite une révision plus approfondie.
Le contrôle ponctuel permet de vérifier si les portes automatisées fonctionnent réellement. Si la Vérification 3 indique « tous les nombres sont équilibrés » mais que votre ligne aléatoire a un sous-total qui ne correspond pas à la somme des lignes, votre formule arithmétique a un bug — et vous venez de le détecter avant de traiter 200 lignes avec une vérification défectueuse.
Quand ré-extraire vs corriger manuellement
L'exécution de cette liste de contrôle fera apparaître des problèmes. La décision suivante est de savoir s'il faut corriger des cellules individuelles ou relancer l'extraction. La règle est simple : si la même erreur apparaît sur trois documents ou plus, la cause racine se trouve dans la configuration d'extraction — corrigez les noms de colonnes, ajustez les spécifications de format, et ré-extrayez. Si l'erreur est isolée à un seul document avec un format inhabituel, corrigez la cellule et passez à autre chose.
Trois signes indiquant qu'il faut ré-extraire plutôt que de corriger manuellement :
- Le même champ est erroné sur plusieurs lignes. Si 15 factures ont le mauvais total, l'outil d'extraction lit systématiquement la mauvaise ligne sur ce format de document. Ajuster la spécification de colonne — par exemple, passer de « Total » à « Total général » — corrige les 15 d'un coup.
- Une colonne est entièrement vide ou systématiquement erronée. C'est une incompatibilité de nom de colonne. La sortie est inutilisable et une correction manuelle signifierait saisir chaque valeur à partir de zéro — ce qui va à l'encontre de l'objectif de l'extraction.
- Les dates sont dans le mauvais format sur l'ensemble du lot. Un ajustement de spécification de format (JJ/MM/AAAA vs MM/JJ/AAAA) corrige tout le lot au moment de l'extraction. Corriger les dates une par une après l'exportation est l'activité post-extraction la plus fastidieuse et la plus sujette aux erreurs.
La correction manuelle est la bonne décision lorsque l'erreur est spécifique à un document — un scan maculé, une note manuscrite mal lue par l'IA, une mise en page non standard d'un fournisseur particulier. Ouvrez la source, lisez la valeur, saisissez-la. Une seule modification, terminé.
Intégrer cette checklist à votre flux de travail
La première fois que vous exécutez cette checklist, comptez 20 minutes — vous créez les formules, identifiez les colonnes, repérez où les erreurs se concentrent. Dès le troisième lot, cela prend 12 minutes. Au dixième, vous avez un modèle de tableur avec toutes les formules préétablies — vous collez les données extraites, les contrôles s'activent, et vous passez 5 minutes sur les lignes signalées et les 3 vérifications ponctuelles.
Considérez cette checklist comme un ingénieur QA considère ses suites de tests : l'investissement initial consiste à construire les contrôles, et chaque lot suivant vous rembourse en détectant les erreurs avant qu'elles ne quittent votre machine. Une facture de 50 000 € payée sur la base d'un total mal lu coûte bien plus que les 12 minutes nécessaires pour la vérifier.
Questions fréquentes
Combien de temps prend réellement cette checklist en 7 points ?
Pour un lot de 200 documents issus d'un format familier : 12 minutes. Détail : Contrôles 1-2 (analyse des colonnes + comptage des lignes) — 3 minutes. Contrôles 3-6 (formules) — 5 minutes de configuration initiale, 2 minutes pour examiner les lignes signalées. Contrôle 7 (vérifications ponctuelles) — 5 minutes pour ouvrir 3 documents et comparer. Après le premier lot, la réutilisation du modèle réduit le total à moins de 10 minutes.
Dois-je exécuter les 7 contrôles sur chaque lot ?
Les contrôles 1-2 et 7 sur chaque lot — ce sont les barrières les plus rentables et les moins exigeantes. Les contrôles 3-6 se configurent une fois sous forme de modèles de tableur et s'exécutent automatiquement lorsque vous collez de nouvelles données. La question n'est pas « dois-je les exécuter » — une fois construits, ils tournent seuls. La question est « dois-je examiner les lignes signalées », et la réponse est toujours oui.
Et si l'outil d'extraction dispose d'une validation intégrée — en ai-je encore besoin ?
La validation intégrée couvre généralement les contrôles de format : « cette valeur n'est pas une date valide » ou « cette cellule est vide ». Les contrôles de cet article couvrent une validation relationnelle qu'aucun outil d'extraction ne peut automatiser complètement sans connaître votre contexte métier. L'outil ne sait pas que la date de facture doit être antérieure à la date d'échéance pour vos accords fournisseurs. Il ne connaît pas les dates de votre période de reporting. Ces règles vivent dans votre tableur, et elles valent les cinq minutes nécessaires pour les construire.
Puis-je sauter le contrôle ponctuel si tous les contrôles automatisés réussissent ?
Non. Le contrôle ponctuel (Contrôle 7) n'est pas redondant avec les contrôles automatisés — il remplit un objectif différent. Les contrôles automatisés valident que les chiffres respectent les règles que vous avez encodées. Le contrôle ponctuel valide que les règles que vous avez encodées sont les bonnes règles et qu'elles fonctionnent correctement. Une formule qui renvoie silencieusement zéro à cause d'une erreur de référence vous donne une fausse confiance. Le contrôle ponctuel garantit l'honnêteté de votre automatisation.
Quelle est l'erreur la plus courante parmi les 7 contrôles ?
Le désalignement de colonne (Contrôle 1) est le plus courant et le plus rapide à détecter. Dans environ un lot sur 15, au moins un champ se retrouve dans la mauvaise colonne — généralement parce que deux champs adjacents ont des valeurs d'apparence similaire. Un montant et un montant de taxe côte à côte, tous deux numériques, tous deux dans une plage plausible. On ne le détecte qu'en lisant la colonne verticalement et en remarquant que les valeurs de « taxe » dans la colonne des montants ressemblent étrangement à 15-20 % des montants réels.
La vérification est l'écart entre « j'ai utilisé l'outil pour la première fois » et « je fais confiance au résultat ». Il ne s'agit pas de douter du moteur d'extraction — il s'agit de respecter les conséquences en aval si quelque chose passe sans contrôle. Douze minutes par lot, sept contrôles, la confiance pour fermer le fichier et passer à autre chose.
Exécutez cette liste de contrôle sur votre prochain lot de documents extraits. Ouvrez le tableur, parcourez les contrôles 1 à 7 dans l'ordre et voyez ce qui ressort. La première fois que vous détectez un décalage décimal avant qu'il ne devienne une erreur de paiement, les 12 minutes sont rentabilisées. Téléchargez un lot et exécutez vous-même la liste de contrôle de vérification.
Aucune inscription requise · Fonctionne avec JPG, PNG et PDF