L'IA peut-elle comprendre les champs d'une facture ?
Oui — le sens prime sur les étiquettes
Oui. L'IA moderne peut distinguer des champs similaires comme « Date » et « Date d'échéance », ou « Livrer à » et « Facturer à » — car elle lit les champs selon leur sens et leur contexte dans le document, et non simplement selon le texte de l'étiquette. Un outil OCR basé sur des modèles voit deux étiquettes contenant le mot « Date » et n'a aucun moyen de les différencier. Un modèle de langage visuel (VLM) voit un en-tête de facture, lit la relation sémantique entre les champs et comprend que la date à côté du « N° de facture » est la date d'émission, tandis que la date sous « Conditions de paiement » est la date d'échéance. Ce n'est pas une simple amélioration marginale — c'est une différence fondamentale dans la manière dont l'extraction fonctionne.
Points clés à retenir
- La plupart des outils d'extraction voient deux étiquettes contenant le mot « Date » et n'ont absolument aucun moyen de distinguer la date de facture de la date d'échéance — ils prennent la première correspondance et espèrent que vous ne remarquerez pas que la colonne a été inversée.
- L'IA moderne résout ce problème en superposant trois types de compréhension que vos propres yeux utilisent déjà — ce que signifie une étiquette, où elle se trouve sur la page et quelle section du document l'entoure — sans que vous ayez jamais à configurer un modèle.
- Le moyen le plus rapide de savoir quel type d'outil vous utilisez : téléchargez une facture où « Date » apparaît comme étiquette quatre fois — si la sortie affiche la même date dans les quatre colonnes, vous payez pour une correspondance de chaîne déguisée en IA.
Comment l’IA lit les champs par leur sens — La compréhension en trois couches
Quand une personne regarde une facture, elle ne lit pas chaque champ isolément. Elle absorbe la mise en page globale — l’en-tête avec les coordonnées de l’entreprise, le corps avec les lignes d’articles, le pied de page avec les totaux et conditions de paiement — et utilise cette carte spatiale pour orienter chaque champ qu’elle lit. Une « Date » près du numéro de facture en haut à droite est évidemment la date d’émission. Une « Date » dans la section des conditions de paiement en bas, à côté de « Net 30 » ou « Échéance », est évidemment la date d’échéance. Ce n’est pas un processus de raisonnement conscient pour un humain — mais c’est exactement ce qui fait la différence entre une extraction qui fonctionne et une extraction qui échoue.
Les modèles de vision IA reproduisent cette même compréhension en trois couches, et chaque couche rattrape les erreurs que la couche inférieure ne peut pas détecter.
Couche 1 : Sémantique des libellés. L’IA lit le libellé du champ — « Date de facture », « Date d’échéance », « Adresse de livraison », « Adresse de facturation » — et comprend ce que chaque phrase signifie au niveau linguistique. « Date de facture » signifie la date à laquelle la facture a été émise. « Date d’échéance » signifie la date à laquelle le paiement est attendu. C’est la couche la plus basique, et c’est aussi celle où l’OCR traditionnel s’arrête. Un moteur OCR configuré pour extraire « Date » attrapera la première date qu’il trouve et cessera de réfléchir. Il n’a aucun concept de ce que « Date » signifie — seulement que la chaîne du libellé correspond.
Couche 2 : Proximité positionnelle. L’IA cartographie l’emplacement de chaque libellé sur la page et les autres champs à proximité. Un libellé « Date de facture » à 30 pixels à droite d’un champ « Numéro de facture », dans l’en-tête du document, a un poids positionnel différent d’un libellé « Date d’échéance » à 200 pixels en dessous dans la zone des conditions de paiement. L’IA utilise les relations spatiales — contiguïté, alignement, appartenance au même bloc visuel — pour distinguer les champs qui partagent du vocabulaire. Deux champs contenant tous deux le mot « Date » mais situés dans des sections différentes du document sont des champs différents, et le modèle les traite comme tels.
Couche 3 : Contexte du document. L’IA lit le document comme une structure visuelle complète — pas comme un flux de zones de texte. Elle reconnaît qu’une facture a des zones prévisibles : un en-tête (infos expéditeur, numéro de facture, date), un corps (lignes d’articles avec quantités, descriptions, prix unitaires), une section des totaux (sous-total, TVA, total général), et un pied de page (conditions de paiement, coordonnées bancaires, notes). Une « Date » trouvée dans la zone d’en-tête est interprétée comme la date d’émission. Une « Date » trouvée dans le pied de page, à côté des instructions de paiement, est interprétée comme la date d’échéance. La structure du document fournit l’échafaudage sémantique que les libellés seuls ne peuvent pas offrir — et c’est ce qui manque totalement à l’OCR traditionnel, qui traite les documents comme du texte plat.
La combinaison de ces trois couches signifie que l’IA ne se contente pas de faire correspondre des libellés — elle raisonne sur ce qu’est chaque champ. Et ce raisonnement est ce qui la rend fiable sur les vraies factures fournisseurs, où aucun format n’est identique et où les libellés sont souvent abrégés (« Date fact. », « Échéance », « Date émise ») ou traduits (« Data fattura », « Fällig am »). Pour en savoir plus sur la différence fondamentale entre cette approche et les méthodes plus anciennes, voir ce qu’est l’extraction documentaire par IA et en quoi elle diffère de l’OCR traditionnel.
Cinq paires de champs qui piègent l'OCR traditionnel — mais pas l'IA
Les paires suivantes ne sont pas des cas limites hypothétiques. Elles apparaissent sur presque toutes les factures fournisseur sous une forme ou une autre, et constituent la source la plus fréquente d'erreurs d'extraction pour les outils basés sur la correspondance d'étiquettes ou les modèles. Pour chaque paire, la compréhension en trois couches de l'IA empêche la confusion.
Paire 1 : Date de facture vs Date d'échéance
C'est la confusion la plus courante sur toute facture. Les deux champs contiennent des dates. Les deux apparaissent fréquemment avec des étiquettes incluant le mot « Date ». Sur une facture typique, la date de facture se trouve dans l'en-tête — près du numéro de facture, de l'adresse de l'expéditeur et du titre du document. La date d'échéance se trouve plus bas — dans une section des conditions de paiement, souvent accompagnée de « Net 30 », « À payer avant » ou d'instructions de paiement spécifiques. Un outil de correspondance d'étiquettes cherchant « Date » attrapera la première qu'il trouve et pourrait placer la date d'échéance dans la colonne de la date de facture. L'IA qui lit la structure visuelle du document sait qu'une date dans le bloc d'en-tête est la date d'émission et qu'une date adjacente aux conditions de paiement est la date d'échéance — même si les deux étiquettes sont abrégées en « Date » par le concepteur de la facture.
Paire 2 : Adresse de livraison vs Adresse de facturation
Les deux sont des adresses. Les deux contiennent un nom d'entreprise, une rue, une ville et un code postal. La différence visuelle n'est souvent qu'une étiquette au-dessus de chaque bloc — « Adresse de livraison » à gauche, « Adresse de facturation » à droite, ou l'inverse. Un outil OCR basé sur un modèle configuré pour capturer « l'adresse » attrapera le premier bloc d'adresse trouvé et s'arrêtera. L'IA lit l'étiquette au-dessus de chaque bloc, comprend que « Adresse de livraison » désigne la destination de livraison et « Adresse de facturation » désigne l'entité de facturation, et achemine chacune vers la colonne de sortie correcte. Sur les factures où les deux blocs ne sont pas étiquetés — juste deux adresses côte à côte sans en-tête — l'IA utilise des heuristiques de position : l'adresse plus proche du haut du document, alignée avec les détails de l'expéditeur, est généralement l'adresse de facturation, tandis que l'adresse dans une section d'expédition séparée est l'adresse de livraison.
Paire 3 : Sous-total vs Total
Ce sont deux montants monétaires. Tous deux apparaissent dans la section des totaux en bas de la facture. Ce qui les distingue n'est pas seulement l'étiquette mais la hiérarchie spatiale : le Sous-total apparaît au-dessus de la ligne de taxe et en dessous des lignes d'articles, représentant la somme de tous les articles avant taxe. Le Total (ou Total général) apparaît tout à la fin de la colonne des totaux, après application de la taxe et des éventuelles remises — souvent dans une police plus grande ou en gras. L'IA lit cette hiérarchie visuelle comme le ferait une personne : elle sait que le montant immédiatement en dessous du dernier article est le sous-total, et que le montant en bas de la colonne, après taxes et ajustements, est le total final. Les outils basés sur des modèles qui définissent des zones de coordonnées fixes pour chaque montant échoueront dès qu'un fournisseur ajoute une ligne de remise ou modifie l'affichage du taux de taxe — la zone qui contenait « Sous-total » contient désormais « Remise », et les données extraites se décalent d'une ligne.
Paire 4 : Montant net vs Montant brut
Similaire à Sous-total vs Total mais avec une couche supplémentaire : Net signifie généralement le montant avant taxe, tandis que Brut signifie le montant taxe comprise. Certaines factures les étiquettent « Net », « Taxe », « Brut » dans un bloc de trois lignes. D'autres les étiquettent « Sous-total », « TVA », « Total ». Certaines factures européennes utilisent « Netto » et « Brutto ». Une approche de simple correspondance d'étiquettes échoue dès que le vocabulaire change. L'IA lit la relation sémantique : le montant qui, une fois la taxe ajoutée, équivaut au total final — c'est le montant net. Le montant qui équivaut au total final — c'est le montant brut. Les étiquettes peuvent varier selon les langues et les formats de facture, mais la relation mathématique entre les nombres est invariante.
Paire 5 : Nom du fournisseur vs Nom du client
Ce sont deux noms d'entreprise. Tous deux apparaissent sur chaque facture. Mais l'un est l'expéditeur (le fournisseur qui a émis la facture et souhaite être payé) et l'autre est le destinataire (le client qui a reçu les biens ou services). L'IA les distingue par position : le nom du fournisseur apparaît dans l'en-tête de la facture, généralement avec le logo, l'adresse et le numéro de TVA de l'expéditeur. Le nom du client apparaît dans le bloc « Facturé à » ou « Vendu à », généralement sous l'en-tête mais au-dessus des lignes d'articles. Sur une facture mal conçue où les deux noms apparaissent sans étiquetage clair, l'IA utilise la taille de police et la position comme signaux — le nom dans la plus grande police en haut de la page, accompagné d'un logo, est presque certainement le fournisseur.
Ces cinq paires couvrent la majorité des erreurs d'échange de champs qui affectent l'extraction basée sur des modèles. Et le fil conducteur entre toutes est que la solution de l'IA repose sur le même mécanisme : elle n'extrait pas par correspondance d'étiquettes — elle extrait en comprenant ce que chaque champ signifie dans le contexte de l'ensemble du document.
Comment l'IA dissipe chaque confusion — le raisonnement pas à pas
Il est facile de dire « l'IA comprend le contexte ». Il est plus utile d'en montrer le raisonnement. Voici ce qui se passe réellement lorsqu'un modèle vision-langage traite une facture avec des champs d'apparence similaire.
Étape 1 : Le modèle examine d'abord l'ensemble de la page. Avant d'extraire quoi que ce soit, il prend en compte la disposition visuelle complète — l'agencement spatial des blocs de texte, les tailles de police, les espaces blancs qui séparent les sections. Cette vue d'ensemble lui confère l'orientation dans la structure du document que l'OCR traditionnelle n'a pas. C'est la différence entre lire un livre en scannant chaque mot de gauche à droite (OCR) et le lire en remarquant d'abord qu'il a une page de titre, une table des matières, des chapitres et un index (VLM).
Étape 2 : Il segmente la page en zones fonctionnelles. Le modèle identifie la zone d'en-tête (infos expéditeur, logo, numéro de facture, date), la zone du corps (lignes d'articles dans un tableau), la zone des totaux (sous-total, taxe, total) et la zone de pied de page (conditions de paiement, coordonnées bancaires, notes). Cette segmentation ne repose pas sur des règles préprogrammées comme « l'en-tête est toujours les 7,5 cm du haut » — elle se base sur des motifs visuels appris en voyant des millions de documents. Un bloc dense de lignes d'adresse en haut est un en-tête. Un tableau multi-colonnes au milieu est le corps. Une colonne de chiffres alignée à droite près du bas est la zone des totaux.
Étape 3 : Il lit chaque champ dans son contexte documentaire. Lorsque l'utilisateur définit une colonne d'extraction — par exemple, « Date d'échéance » — l'IA ne cherche pas la chaîne « Date d'échéance » sur la page. Elle cherche un champ de date qui satisfait trois conditions simultanément : (1) le texte du libellé est sémantiquement équivalent à « Date d'échéance » (correspondant à « Due Date », « Due by », « Payment Due », « Fällig am », « Échéance ») ; (2) la position spatiale du champ se trouve dans la zone de pied de page ou des conditions de paiement, pas dans l'en-tête ; (3) le champ est proche d'un contenu lié au paiement comme « Net 30 », « Payable by » ou des instructions de virement bancaire. Une date qui satisfait les trois conditions est la date d'échéance. Une date qui ne satisfait que la condition (1) — un libellé contenant « Date » — mais se trouve dans l'en-tête près du numéro de facture est la date de facture, pas la date d'échéance.
Étape 4 : Il effectue une validation croisée entre les champs. L'IA n'extrait pas « Date de facture » et « Date d'échéance » comme des tâches isolées. Elle les extrait ensemble et vérifie qu'elles forment une paire cohérente — la date d'échéance doit être égale ou postérieure à la date de facture. Si l'IA renvoie une date de facture au 25 juin et une date d'échéance au 10 juin — une date antérieure à la facture — elle sait que quelque chose cloche et réexamine les deux champs. Cette validation croisée est un contrôle de cohérence intégré que l'OCR par modèle ne peut pas effectuer, car l'OCR par modèle ne comprend pas que les dates ont des relations chronologiques.
Ce processus de raisonnement en quatre étapes est ce qui distingue l'extraction sémantique de la correspondance d'étiquettes. C'est aussi pourquoi vous n'avez pas besoin de créer des modèles d'analyse distincts pour chaque fournisseur — l'IA lit chaque document à nouveau, appliquant la même logique de compréhension à tout format rencontré. Pour une explication de pourquoi cette approche sans modèle est plus qu'une simple fonctionnalité de confort, voir si l'IA peut extraire des données sans configurer de modèles.
Ce qu'il faut rechercher dans un outil d'extraction contextuelle
Tous les outils qui se vantent d'une « extraction par IA » n'utilisent pas la compréhension à trois niveaux décrite ci-dessus. Nombre d'entre eux enrobent une OCR traditionnelle d'un vernis marketing IA — le moteur d'extraction reste basé sur la correspondance d'étiquettes, simplement avec une interface plus agréable. Voici comment faire la différence.
1. Testez-le sur deux factures avec les mêmes libellés de champ, mais à des positions différentes. Prenez deux factures de fournisseurs différents. Les deux ont un champ « Date », mais sur la facture A, la date se trouve dans l'en-tête en haut à droite, et sur la facture B, elle se trouve dans la colonne de gauche sous le logo. Si l'outil renvoie la date correcte pour les deux, c'est qu'il lit le champ par son sens, et non par sa position. S'il échoue sur la deuxième facture, il utilise des zones de coordonnées fixes.
2. Testez-le sur une facture avec des libellés abrégés ou traduits. Donnez à l'outil une facture où la date d'échéance est libellée « Due by », « Échéance » ou « Fällig am » — et non « Due Date ». Si l'outil l'identifie correctement comme la date d'échéance lorsque vous demandez « Due Date », il comprend la sémantique des libellés, et non la correspondance textuelle. S'il ne trouve pas le champ, il effectue une comparaison textuelle littérale. Ce test est particulièrement important si vous traitez des factures internationales — les libellés de champ varient considérablement selon les langues et même selon les services d'une même entreprise.
3. Testez le traitement par lots avec des factures de formats variés. Téléchargez cinq factures de cinq fournisseurs différents, chacune avec une mise en page différente, et demandez « Date de facture » et « Date d'échéance ». Si le tableau de sortie contient les dates correctes dans les bonnes colonnes pour les cinq, l'outil utilise une compréhension sémantique. Si deux ou trois factures ont des dates inversées, l'outil dépend de modèles en arrière-plan.
4. Vérifiez si l'outil vous montre le champ qu'il a associé. Un bon outil d'extraction ne se contente pas de vous donner la valeur extraite — il vous montre où sur le document il a trouvé cette valeur. L'extraction de colonnes personnalisées vous permet de définir exactement les champs que vous souhaitez (« Date de facture », « Date d'échéance », « Montant net », « Montant brut ») et traite chacun comme une recherche sémantique indépendante. Lorsqu'un champ revient avec une valeur, vous pouvez la vérifier par rapport au document source. Les outils qui vous donnent un CSV opaque sans correspondance avec le document cachent quelque chose — généralement un taux d'erreur élevé sur les paires de champs similaires.
5. Testez sur des documents où le même mot d'étiquette apparaît dans plusieurs champs. Créez un document de test où « Date » apparaît comme libellé pour quatre champs différents : « Date de commande », « Date d'expédition », « Date de facture » et « Date d'échéance ». C'est un test extrême, mais il révèle si le moteur d'extraction de l'outil effectue une compréhension sémantique ou une correspondance par mots-clés. Un moteur sémantique renverra quatre dates différentes. Un moteur de correspondance par mots-clés renverra la même date quatre fois, ou trois blancs et une date. Ce dernier cas est bien plus courant que la plupart des fournisseurs ne l'admettent.
Questions fréquentes
L'IA peut-elle vraiment distinguer la « Date de facture » de la « Date d'échéance » quand les deux champs indiquent simplement « Date » ?
Oui — car l'IA ne se fie pas qu'au libellé. Elle analyse la position de chaque date sur la page. Une « Date » dans l'en-tête à côté du numéro de facture est la date d'émission. Une « Date » dans la section des conditions de paiement à côté de « Net 30 » est la date d'échéance. La position dans la mise en page du document est un indicateur plus fort que le libellé, et l'IA utilise les deux. C'est aussi pourquoi les abréviations et les traductions ne perturbent pas l'extraction — l'emplacement du champ et le contenu environnant fournissent un contexte de désambiguïsation qu'un simple libellé ne peut offrir.
Que se passe-t-il quand une facture n'a aucun libellé « Date d'échéance » — seulement une date sous « Conditions : Net 30 » ?
L'IA déduit la date d'échéance du contexte. Si l'en-tête indique « Date : 01/06/2026 » et le pied de page « Conditions : Net 30 », l'IA comprend que le paiement est dû 30 jours après la date de facture — soit le 1er juillet 2026 — et renvoie cette date comme date d'échéance. Elle lit les conditions de paiement, comprend la convention « Net 30 » et calcule la date d'échéance à partir de la date de facture. Un outil OCR classique ne trouverait aucun champ intitulé « Date d'échéance » et renverrait une valeur vide. Pour en savoir plus sur ce type d'extraction calculée, consultez les conseils pratiques pour une extraction documentaire précise par IA.
L'IA confond-elle parfois « Adresse de livraison » et « Adresse de facturation » quand elles sont côte à côte sans libellé ?
Rarement, mais cela peut arriver. Lorsque les deux blocs d'adresse ne sont pas libellés et visuellement symétriques, l'IA utilise des heuristiques de position — l'adresse alignée avec la zone d'en-tête de l'expéditeur est généralement l'adresse de facturation, et l'adresse dans une section d'expédition séparée est l'adresse de livraison. Sur les factures bien structurées, cette heuristique fonctionne. Sur les factures mal conçues où les deux blocs n'ont aucune différenciation visuelle, l'IA peut signaler l'ambiguïté et demander une clarification, ou faire une estimation basée sur des modèles statistiques de ses données d'apprentissage. Si vous traitez régulièrement des factures avec des blocs d'adresse parallèles non libellés, définissez explicitement votre colonne d'extraction comme « Adresse de livraison » ou « Adresse de facturation » — la spécificité du libellé aide l'IA à désambiguïser.
Et si mes factures utilisent des mots complètement différents pour le même concept — comme « Data fattura » pour la date de facture sur une facture italienne ?
C'est précisément là que l'extraction sémantique surpasse la correspondance d'étiquettes. Comme l'IA comprend que « Data fattura » (italien), « Fecha de factura » (espagnol), « Date de facture » (français) et « Rechnungsdatum » (allemand) signifient tous « Date de facture », elle extrait la valeur correcte quelle que soit la langue. Le même modèle qui lit une facture anglaise lit une facture italienne en utilisant le même mécanisme — il comprend ce que la phrase signifie, pas les caractères qu'elle contient. Vous n'avez pas besoin de configurer des correspondances d'étiquettes spécifiques à chaque langue. Vous définissez votre colonne de sortie une fois en anglais — « Date de facture » — et l'IA trouve le champ correspondant, que l'étiquette soit en anglais, italien, allemand ou japonais.
Quelle est la précision de l'IA pour distinguer des champs similaires par rapport à un humain ?
Sur des factures imprimées propres avec des mises en page standard, la précision de l'IA pour la distinction de champs similaires est de 95 % ou plus — comparable à un commis à la saisie de données formé. Sur des mises en page inhabituelles — factures où la date d'échéance apparaît au-dessus de la date de facture, ou où les lignes d'article sont disposées dans un ordre non standard — la précision de l'IA tombe à 85-90 %. Les cas d'erreur restants sont généralement des documents où un humain aurait aussi besoin d'un moment pour déterminer quelle date est laquelle. Le conseil pratique : pour un traitement à volume élevé, inspectez par lots les 10 premières factures d'un nouveau fournisseur pour confirmer la correspondance des champs, puis faites confiance à l'extraction automatisée pour les factures suivantes de ce fournisseur. La plupart des erreurs d'échange de champs sont systématiques (elles se produisent sur chaque facture du même fournisseur en raison d'une particularité de mise en page), pas aléatoires — donc une correction résout tout le lot.
L'IA doit-elle être formée sur le format de facture de chaque fournisseur pour distinguer correctement les champs ?
Non. C'est tout l'intérêt de la compréhension en trois couches. Les outils basés sur des modèles vous obligent à dessiner des cadres autour de « Date de facture » et « Date d'échéance » sur chaque nouveau format de fournisseur car ils extraient par position. L'IA qui lit par sens extrait correctement dès la première rencontre avec un nouveau format car elle ne se soucie pas de l'emplacement du champ — elle se soucie de ce qu'est le champ. Vous pouvez traiter des factures de 50 fournisseurs différents en un seul lot, chacun avec une mise en page complètement différente, et l'IA gère chacun indépendamment. C'est la différence entre l'extraction sémantique sans modèle et l'OCR basé sur la position : voir notre explication complète de l'extraction IA sans modèle.
Quelle est l'erreur de paire de champs la plus fréquente que l'IA commet encore sur les factures réelles ?
Le cas le plus difficile est celui où deux champs similaires apparaissent dans la même zone du document sans séparation spatiale — par exemple, « Sous-total » et « Total après remise » tous deux dans la même colonne alignée à droite de la section des totaux, avec seulement un saut de ligne entre eux. Sur les factures denses où les espaces blancs sont minimes, l'IA a moins de signal pour lever l'ambiguïté spatiale. Le deuxième cas le plus difficile est lorsqu'un fournisseur utilise le même mot-clé pour des usages différents selon les factures — « Montant » signifiant sous-total sur une facture et total général sur une autre du même fournisseur. Dans les deux cas, la solution est la même : définissez vos colonnes d'extraction plus précisément. Au lieu de « Montant », demandez explicitement « Sous-total » et « Total général ». Plus vos noms de colonnes sont spécifiques, moins l'IA a de place pour deviner — et la spécificité au niveau du champ ne coûte rien.
La différence entre une IA qui « lit le contexte » et une IA qui distingue réellement des champs similaires est la différence entre un outil que l'on montre une fois et un outil que l'on utilise chaque jour. Les erreurs d'inversion de champs — mettre la date d'échéance dans la colonne de la date de facture, l'adresse de livraison dans le champ de l'adresse de facturation — sont les tueuses silencieuses de la confiance dans l'extraction. Une seule date erronée dans un lot de 100 factures suffit à faire revenir à la saisie manuelle. La compréhension en trois couches qu'apportent les modèles de vision modernes — sémantique des libellés + proximité spatiale + contexte du document — est ce qui rend l'extraction fiable sur les factures réelles des fournisseurs, pas seulement sur des documents de démonstration propres. Testez-la sur votre facture la plus confuse. Celle avec quatre champs de date, deux blocs d'adresse et une section de totaux qui ne s'aligne pas. Si l'IA réussit celle-là, elle gérera le reste.
Pour approfondir le fonctionnement interne des moteurs d'extraction par IA — y compris la différence entre les modèles de vision-langage et l'OCR traditionnel — commencez par ce qu'est l'extraction de documents par IA et comment elle fonctionne. Si vous évaluez des outils d'extraction et souhaitez un cadre pratique pour tester la précision sur vos propres documents, consultez notre guide pratique pour améliorer la précision de l'extraction par IA.