OCR vs Vision IA : Quel format de document survit à la conversion vers Word

Dans les benchmarks indépendants de Firstsource, les modèles de langage visuel (VLM) atteignent 67 % de précision sur les mises en page complexes — là où l'OCR traditionnel plafonne entre 40 et 60 %. Même un VLM d'entrée de gamme comme DONUT, avec 52 %, surpasse déjà la fourchette haute de l'OCR traditionnel. L'écart n'est pas progressif. Les deux technologies lisent les documents de manière fondamentalement différente.

Le pipeline OCR : comment la conversion traditionnelle lit réellement un document

Pour comprendre pourquoi la conversion PDF vers Word casse la mise en forme, il faut comprendre ce que fait l'OCR traditionnel — étape par étape — lorsqu'il rencontre une page.

Le processus commence par la reconnaissance des caractères. Le moteur OCR analyse chaque ligne de pixels et les classe en caractères : cette forme est un « A », celle-ci un « 3 », celle-là une virgule. Sur du texte imprimé propre et haute résolution, cela fonctionne plutôt bien. Google Document AI et AWS Textract atteignent tous deux une précision au niveau des caractères supérieure à 95 % sur des documents vierges — comparable à ce qu'un LLM obtient sur la même entrée.

La précision des caractères n'est pas le problème. Le problème, c'est tout ce qui se passe après.

Une fois que l'OCR a une liste de caractères reconnus et leurs coordonnées x,y sur la page, il est confronté à une série de tâches de reconstruction que la seule reconnaissance de caractères ne peut pas résoudre. Il doit regrouper les caractères en mots, les mots en lignes, les lignes en paragraphes. Il doit déterminer que ces lignes horizontales et verticales près d'un texte sont censées former un tableau — puis reconstruire quelle cellule contient quel texte, et quelles cellules doivent être fusionnées. Il doit décider si cette grande zone blanche dans la colonne est une image intégrée ou simplement un espace vide. Et il doit déterminer pourquoi un bloc de texte est en gras 14 points tandis qu'un autre est en normal 11 points, et ce que cette hiérarchie signifie.

Chacune de ces étapes — regroupement de blocs de texte, détection de tableaux, séparation texte-image, attribution de hiérarchie — est un algorithme distinct empilé sur la sortie brute des caractères. Chacune introduit son propre taux d'erreur. Et les erreurs se cumulent. Une précision de caractères de 95 %, multipliée par quatre étapes de reconstruction en aval fonctionnant chacune à 85–90 %, donne une fidélité de mise en page finale bien inférieure à ce que suggère le chiffre de précision initial.

Cet effet de cumul est le mécanisme derrière chaque tableau cassé, chaque zone de texte errante, chaque région d'image manquante que les utilisateurs rencontrent après une conversion PDF vers Word. Le moteur OCR n'a pas « échoué » — il n'a jamais eu la capacité d'effectuer ces tâches de reconstruction en premier lieu. Ces tâches nécessitent de comprendre ce que le document signifie, pas seulement les caractères qu'il contient. Comme nous l'expliquons dans notre analyse approfondie sur pourquoi le PDF vers Word perd la mise en forme, le format PDF lui-même stocke le texte sous forme d'objets positionnés plutôt que de paragraphes fluides — rendant cette reconstruction particulièrement fragile lorsque la source n'a jamais été un document Word au départ.

Ce que l’IA visuelle fait différemment : les 4 dimensions

Les modèles de langage visuels (VLM) — la catégorie de modèles qui inclut GPT-4o, Claude, Gemini et les modèles documentaires spécialisés comme Nemotron Parse de NVIDIA — abordent le problème dans le sens inverse. Au lieu de reconnaître d’abord les caractères puis de construire la structure, ils traitent le document comme une scène visuelle unique. Le modèle « voit » la page comme le ferait un lecteur humain : comme une composition de régions, chacune ayant un rôle visuel et une relation sémantique avec les autres.

Cette différence se manifeste dans quatre dimensions critiques de la préservation de la mise en page. Chaque dimension est un endroit où l’approche séquentielle de l’OCR traditionnel introduit des erreurs qu’un modèle visuel unifié ne commet tout simplement pas.

1. Compréhension au niveau du bloc de texte

Ce que fait l’OCR. Après avoir reconnu les caractères individuels et cartographié leurs coordonnées, le moteur OCR applique des heuristiques de proximité spatiale pour les regrouper : les caractères à moins de N pixels les uns des autres forment un mot, les mots à moins de M pixels forment une ligne, les lignes avec un certain écart vertical forment un paragraphe. Lorsque le document comporte des mises en page multi-colonnes, des barres latérales, des encadrés ou des flux de texte irréguliers — une facture avec un bloc d’en-tête, une barre latérale avec les conditions de paiement et un tableau de lignes sur la même page — ces heuristiques s’effondrent. Le texte de la barre latérale est fusionné avec le corps principal. Les limites des colonnes s’estompent. L’ordre de lecture est perturbé.

Ce que fait l’IA visuelle. Un VLM encode la page entière via un transformateur visuel qui capture les relations spatiales à plusieurs échelles simultanément. Il n’a pas besoin de deviner que « les fragments de texte séparés par X pixels forment un paragraphe » — il voit le bloc de texte rectangulaire comme une unité visuelle, délimitée par des espaces blancs, des bordures ou des changements de couleur d’arrière-plan. Le modèle reconnaît qu’un bloc dans le coin supérieur droit avec une nuance d’arrière-plan différente est une barre latérale, et non une continuation du texte principal. Il comprend que deux colonnes parallèles sur un article scientifique sont des flux de lecture distincts, et non une seule ligne de texte large qui a été divisée.

La conséquence pratique : une facture multi-sections avec un en-tête, un bloc d’adresse de facturation, un tableau de lignes et une section de notes de bas de page — convertie par OCR, ces quatre régions se fondent souvent en un seul flux de texte indifférencié. Convertie par un VLM, chaque bloc conserve ses limites spatiales et son ordre de lecture. La mise en page est préservée.

2. Reconnaissance de la structure des tableaux

Ce que fait l'OCR. C'est là que l'écart est le plus grand. Les PDF n'ont pas de structure de tableau native — ils simulent les tableaux par une combinaison de textes positionnés à des coordonnées et de segments de ligne visuels tracés entre eux. Un moteur d'OCR doit détecter algorithmiquement que les segments de ligne forment une grille, puis associer chaque fragment de texte à la bonne cellule, puis identifier les cellules fusionnées, puis déterminer la ligne d'en-tête de colonne. Comme le dit l'analyse technique de Winder.ai : « L'OCR produit un flux de caractères. Il ne préserve pas la structure des lignes et des colonnes des tableaux. Un tableau de facture à trois colonnes devient un fouillis de texte entrelacé qui nécessite une reconstruction manuelle. »

Sur le benchmark PubTabNet — un ensemble de 568 000 images de tableaux issus de publications scientifiques — le modèle de vision Nemotron Parse de NVIDIA a obtenu un score TEDS (Tree Edit Distance-based Similarity) de 81,37 pour la reconstruction du contenu des tableaux et de 93,99 pour la précision structurelle. Les outils OCR traditionnels, qui effectuent la détection des tableaux comme une étape de post-traitement séparée, obtiennent systématiquement un score inférieur à 60 sur le même benchmark. L'écart est structurel : le modèle de vision voit la grille comme faisant partie de la scène, tandis que le pipeline OCR doit la reconstruire à partir de segments de ligne fragmentés.

Le propre reconnaisseur de tableaux de nouvelle génération d'Azure (TSR-v2) fournit un étalonnage utile : même un système de détection de tableaux par vision par ordinateur dédié a amélioré les scores F1 d'environ 90 % à environ 95 % pour les écritures latines dans leur mise à jour 2026, et un article de blog de leur équipe notait que « pour les tâches nécessitant une précision dans l'alignement des données, les techniques classiques de vision par ordinateur offrent actuellement des performances supérieures » à l'IA générative — une évaluation honnête de l'état de la technologie. Mais il est à noter que cette comparaison portait sur des LLM généralistes invités à produire des tableaux, et non sur des modèles de langage-vision spécialement entraînés sur des documents.

Ce que fait l'IA de vision. Le VLM perçoit le tableau entier comme un seul objet visuel. Il voit les lignes de la grille, les en-têtes de colonne en gras, l'alternance des couleurs de ligne, les cellules fusionnées avec du texte centré, les lignes de sous-total avec un fond différent. Il comprend que la ligne 4, colonne 3 contient la quantité « 12 » parce que la position spatiale de cette cellule sous l'en-tête « Qté » et son alignement à gauche dans cette colonne rendent cette affectation non ambiguë — et non parce qu'un algorithme a calculé des intersections de polygones et deviné.

Pour les documents scannés avec des tableaux complexes, cette différence est décisive. Un bon de commande avec 8 colonnes, des en-têtes de cellules fusionnées sur deux lignes, une mise en forme conditionnelle pour les articles en rupture de stock, et des notes de bas de page sous le tableau — l'approche OCR produit un résultat qui nécessite une reconstruction à partir de zéro. Le VLM produit une représentation structurée où les relations entre lignes et colonnes sont préservées. Si vous avez besoin de tableaux intacts dans votre document Word converti, notre guide étape par étape pour conserver les tableaux intacts lors de la conversion détaille le processus pratique.

3. Séparation image-texte

Ce que fait l'OCR. Les moteurs d'OCR traditionnels sont fondamentalement orientés texte. Lorsqu'ils rencontrent une zone d'image — un graphique, un logo, une photo, une signature — ils ont deux options : tenter de la « lire » comme du texte (produisant des caractères aberrants), ou la marquer comme zone non reconnue et l'ignorer. Aucune des deux ne préserve l'image dans le document de sortie. Le graphique qui expliquait la tendance trimestrielle des revenus, le logo de l'entreprise sur l'en-tête, la signature scannée sur le contrat — tout cela devient des espaces vides ou des caractères d'erreur.

Certains systèmes d'OCR avancés ajoutent un module de détection d'images séparé qui identifie les zones non textuelles et les enregistre sous forme d'images intégrées. Mais la détection repose sur l'espace négatif — « zone sans texte reconnu = image » — ce qui échoue lorsque du texte chevauche une image (filigranes, schémas avec légendes, photos annotées). Elle ne peut pas non plus distinguer entre une image décorative qui doit rester dans le flux et un graphique de données qui doit flotter avec sa légende.

Ce que fait l'IA visuelle. Le VLM analyse la page de manière holistique. Il identifie les zones photographiques, les graphiques vectoriels, les diagrammes, les logos et les annotations manuscrites comme des types d'éléments visuels distincts — et non comme « l'absence de texte ». Une équipe de recherche de Towards AI a documenté son expérience de construction d'un pipeline documentaire basé sur VLM : l'entraînement d'un modèle de détection visuelle pour classer les zones de document (texte, tableau, figure, diagramme) a amélioré la précision du type de zone de 72 % à 91 %, les plus grands gains provenant de l'ajout d'exemples négatifs difficiles — tableaux denses et certaines dispositions de figures qui ressemblent visuellement à des diagrammes sans en être.

Le résultat pratique : un contrat scanné avec un logo d'en-tête d'entreprise et une signature manuscrite en bas. L'OCR produit un fichier Word où le logo est un espace réservé d'image cassée et la signature est une traînée de caractères mal reconnus. Le VLM préserve le logo en tant qu'image, reconnaît la signature comme une signature (et non comme du texte à transcrire), et place les deux correctement dans le flux du document.

4. Reconstruction de la hiérarchie des paragraphes

Ce que fait l'OCR. Les moteurs d'OCR peuvent détecter la taille et le poids de la police — une ligne en gras de 14 points suivie d'un texte normal de 11 points. Ils appliquent alors des heuristiques : « police plus grande + gras = probablement un titre ». Mais ces heuristiques sont fragiles. Une ligne en gras de 12 points dans un état financier peut être un en-tête de section, une étiquette de colonne dans un tableau, ou un montant total mis en forme pour être mis en évidence. Le moteur d'OCR ne peut pas faire la différence car il ne comprend pas ce que le texte dit ni son rôle dans la structure du document.

Des recherches d'ICLR 2025 sur l'analyse de structure de documents par graphes formalisent ce que l'OCR ne peut pas faire : construire un arbre hiérarchique où les en-têtes de section sont des nœuds parents, les paragraphes de corps sont des nœuds enfants, les sous-sections s'imbriquent sous leurs sections parentes, et les légendes sont liées à leurs figures associées. Ce type de prédiction de relation — « ce bloc de texte est la légende de cette image » ou « ce titre introduit les trois paragraphes qui suivent » — nécessite de comprendre le contenu, pas seulement de mesurer les métriques de police.

Ce que fait l'IA visuelle. Le VLM lit le texte sémantiquement, pas seulement visuellement. Quand il voit une ligne qui dit « 3.2 Politique de reconnaissance des revenus » en gras, il ne note pas seulement la taille de la police — il comprend que cette ligne introduit une sous-section d'un document financier, que les paragraphes suivants développent ce sujet, et que le prochain titre au même niveau (« 3.3 Classification des dépenses ») commence une nouvelle sous-section. Le document Word généré reflète cela : des styles de titre appropriés (Titre 1, Titre 2, Corps de texte) plutôt qu'un formatage direct, une structure de plan navigable, et la possibilité de réduire ou développer les sections.

C'est la dimension où l'avantage du VLM est le moins une question de pourcentages de précision et le plus une question d'utilisabilité du résultat. Un document converti par OCR peut avoir des caractères corrects mais un formatage plat — chaque paragraphe se ressemble, obligeant l'utilisateur à réappliquer manuellement les styles de titre, reconstruire la table des matières et restructurer le document avant qu'il ne soit modifiable. Un document converti par VLM préserve la hiérarchie, le rendant immédiatement exploitable. Pour le mécanisme sous-jacent de la façon dont les modèles d'IA analysent cette structure, notre explication de la lecture des documents par l'IA approfondit les détails techniques.

JPG/PNG/PDF Préservation de la mise en page par IA Sortie Word modifiable

Les fichiers sont traités de manière sécurisée et non stockés.

Ce que cela signifie concrètement

Les quatre dimensions ci-dessus ne sont pas des abstractions théoriques. Elles correspondent directement à ce que les utilisateurs vivent lorsqu'ils convertissent un document en Word puis passent du temps à corriger le résultat.

Sur le subreddit r/techsupport, un utilisateur nommé stanstr a expliqué la cause profonde mieux que la plupart des documentations techniques : "Le format PDF a été conçu pour la présentation, et Word pour la création. Un PDF est essentiellement un 'tirage' numérique. Il traite chaque élément — une lettre, une ligne ou un logo — comme un objet avec des coordonnées fixes sur un plan 2D. Il ne 'sait' pas ce qu'est un paragraphe ; il sait juste que la lettre 'H' se trouve à un endroit précis." C'est exactement pourquoi les pipelines OCR traditionnels, qui opèrent sur ces mêmes primitives basées sur les coordonnées, héritent de la cécité structurelle du PDF.

Sur r/TechnologyProTips, un autre utilisateur a capturé la frustration universelle : "On me pose cette question des milliers de fois par des collègues. Moi : Oui, il y a Acrobat Pro. L'autre : Ce n'est pas gratuit. Moi : Alors essaye tel ou tel convertisseur PDF en ligne. L'autre : Ouais mais ça ne marche pas toujours, la mise en forme est perdue, etc." L'échange a neuf ans — et le problème sous-jacent n'a pas changé, car la technologie sous-jacente (extraction de texte basée sur les coordonnées couplée à une reconstruction heuristique) n'a pas changé.

Ce qui change avec un VLM, c'est que le document n'est pas reconstruit à partir de coordonnées. Il est compris comme une composition. La différence se voit surtout dans le temps total entre "j'ai un document scanné" et "j'ai un fichier Word modifiable avec lequel je peux vraiment travailler". Un pipeline OCR traditionnel produit un résultat qui nécessite un nettoyage manuel — reformater les tableaux, réappliquer les styles de titres, réintégrer les logos, corriger l'ordre de lecture. Les utilisateurs déclarent passer 15 à 30 minutes par document sur ces corrections. Un VLM produit un résultat structurellement complet, nécessitant une relecture mais pas une reconstruction.

C'est la traduction concrète des chiffres de précision. Un écart de 67 % à 60 % sur le papier représente 15 à 30 minutes de nettoyage économisées par document en pratique. Pour une présentation plus détaillée de ce à quoi ressemble réellement le processus de nettoyage post-OCR, notre analyse de ce qui se passe après l'OCR documente l'ensemble du flux de correction.

Quand l'OCR traditionnel reste pertinent (et quand il ne l'est pas)

Aucune comparaison honnête ne présente une technologie comme universellement supérieure. L'OCR traditionnel a de réels avantages dans des scénarios spécifiques — et comprendre ces limites est aussi important que de savoir où l'IA visuelle excelle.

L'OCR est le meilleur choix quand :

Vous traitez des volumes très élevés de documents identiques. Si vous recevez 10 000 formulaires W-9 par mois issus du même modèle, un pipeline OCR basé sur des modèles avec extraction zonale sera plus rapide et moins cher par page que de passer chaque document dans un VLM. La cohérence des entrées élimine le problème de reconstruction.
Vous avez seulement besoin de texte consultable, pas d'un formatage éditable. Si l'objectif est de rendre un PDF scanné consultable dans un système de gestion documentaire — et non de produire un fichier Word modifiable — la sortie de l'OCR est suffisante.
Vos documents sont des PDF propres, créés numériquement avec du texte intégré. Un PDF exporté depuis Word contient déjà le texte sous forme de données. Utiliser l'OCR pour l'« extraire » est inutile — un analyseur direct lisant le flux de texte intégré sera plus rapide et parfaitement précis, sans surcoût de modèle.
Le budget est la contrainte absolue et le coût par document doit être minimisé. Tesseract est gratuit et open source. Traiter 100 000 pages avec un VLM coûte du calcul réel. Pour une extraction de texte pur à partir de documents propres, le coût supplémentaire d'un modèle visuel peut ne pas être justifié.

L'IA visuelle est le choix évident quand :

La préservation de la mise en page compte. Si la sortie doit ressembler à l'original — tableaux en place, titres stylisés, images positionnées correctement — un VLM n'est pas un luxe. C'est la seule approche qui offre ce résultat sans reconstruction manuelle.
Les documents ont des formats variés et imprévisibles. Si vous recevez des factures de 200 fournisseurs différents, chacun avec une mise en page différente, le coût de maintenance des modèles d'un pipeline OCR traditionnel dépasse le coût par page d'un VLM. Sans modèle, vous arrêtez de construire et de maintenir des règles d'extraction.
Le document est un scan ou une photo, pas un original numérique. Les documents scannés n'ont pas de texte intégré — l'OCR est obligatoire, et l'OCR basé sur VLM surpasse systématiquement l'OCR traditionnel sur les entrées scannées de 10 à 15 points de pourcentage selon des benchmarks indépendants.
La sortie doit être structurellement modifiable, pas seulement consultable. Si quelqu'un doit ouvrir le fichier converti dans Word et faire des modifications substantielles — ajouter des sections, reformater des tableaux, mettre à jour des figures — il a besoin d'un document avec une structure appropriée, pas d'un simple texte brut avec un formatage direct ad hoc.

En pratique, de nombreuses organisations adoptent une approche hybride : OCR traditionnel pour les flux de documents uniformes à volume élevé, et IA visuelle pour les documents variés, sensibles à la mise en page ou scannés. La décision n'est pas idéologique — elle est économique. Pour un aperçu détaillé du marché des outils offrant les meilleurs résultats dans chaque catégorie, consultez notre comparatif 2026 des convertisseurs PDF vers Word. Et pour une vue d'ensemble complète de ce qu'exige une conversion préservant la mise en page de bout en bout, voir le guide de conversion document vers Word avec préservation de la mise en page.

FAQ

L’IA de vision peut-elle gérer les mises en page multi-colonnes et les barres latérales ?

Oui. Les VLM traitent la page comme une scène et peuvent distinguer des flux de lecture séparés — un corps principal, une barre latérale, un encadré — car ils identifient chacun comme une région visuelle distincte. La ROC traditionnelle, qui regroupe le texte par proximité spatiale, fusionne fréquemment les colonnes adjacentes en un seul flux textuel. C’est l’une des causes les plus courantes d’« ordre du texte brouillé » dans les documents convertis.

Que deviennent les images, graphiques et logos lors de la conversion ?

Avec la ROC traditionnelle, les images sont généralement ignorées (produisant des espaces vides dans le résultat) ou rendues sous forme de chaînes de caractères illisibles. Avec l’IA de vision, le modèle identifie les régions d’image, les conserve en tant qu’images intégrées dans le document Word et les place à la bonne position dans le document. Graphiques, logos, photographies et signatures survivent tous au processus de conversion.

L’IA de vision est-elle plus lente ou plus coûteuse que la ROC traditionnelle ?

Par page, oui — exécuter une page entière via un modèle de langage visuel consomme plus de calcul que via un moteur ROC léger. Selon la comparaison de coûts partagée par Poorna Reddy sur LinkedIn, traiter 1 000 documents via un pipeline uniquement visuel coûte environ 10 à 40 $, contre 1 à 3 $ pour un hybride ROC-plus-LLM. Cependant, la différence de coût par document doit être mise en balance avec le gain de temps par document, car il n’est plus nécessaire de corriger manuellement la mise en forme défectueuse. Pour les documents où la préservation de la mise en page est importante, le temps de nettoyage réduit compense généralement le coût de traitement plus élevé.

Cela fonctionne-t-il pour les documents manuscrits ?

La précision de la ROC traditionnelle sur le texte manuscrit tombe en dessous de 70 % pour la plupart des styles — et pour l’écriture cursive ou les annotations libres, elle est largement illisible. L’IA de vision gère bien mieux l’écriture manuscrite, bien que la précision varie selon la qualité de l’écriture. Pour une écriture très stylisée ou une cursive dense, quelques erreurs sont à prévoir. Le modèle utilise le contexte environnant pour résoudre les caractères ambigus, ce que la ROC traditionnelle ne peut pas faire.

Quelle est la différence entre les modes « Vers tableau » et « Vers Word » ?

Le mode « Vers tableau » extrait les données structurées des documents en lignes de tableur — utile quand vous avez besoin des informations du document, pas de son apparence. Le mode « Vers Word » convertit l'intégralité du document en un fichier Word modifiable tout en conservant la mise en page d'origine — utile quand vous devez modifier le document lui-même. La comparaison sur 4 dimensions dans cet article s'applique principalement au mode « Vers Word », où la fidélité de la mise en page est l'objectif.

L'essentiel

La ROC traditionnelle lit les caractères. La Vision IA lit les documents. Les quatre dimensions où cette distinction compte — blocs de texte, tableaux, images et hiérarchie — ne sont pas des cas particuliers. Ce sont des éléments structurels fondamentaux présents dans pratiquement tout document de plus d'un paragraphe.

L'arbre de décision est simple : si vos documents sont propres, natifs numériques, à une seule colonne, et que vous n'avez besoin que du texte — pas de la mise en forme — la ROC traditionnelle fonctionne. Si vos documents contiennent des tableaux, des images, des mises en page multi-colonnes ou des formats variés — et que vous avez besoin d'un fichier Word modifiable qui ressemble à l'original — un modèle de langage visuel n'est pas en concurrence avec la ROC traditionnelle. Il résout un problème complètement différent.

Essayez-le sur un document qui vous tient à cœur. Voyez si la mise en page que la ROC a passé des décennies à déchiffrer reste enfin intacte.