5 échecs de mise en forme PDF vers Word
qui coûtent des heures de reprise
Voici une vérité que la plupart des outils de conversion PDF ne vous diront pas : ces échecs de mise en forme récurrents ne sont pas des bugs. Ils ne viennent pas d'un « mauvais outil » ni d'un fichier corrompu. Ce sont les résultats mathématiquement prévisibles du fonctionnement réel de l'OCR — et tant que vous ne comprendrez pas pourquoi, vous continuerez à perdre des heures en remise en forme manuelle, quel que soit l'outil utilisé.
Points clés à retenir
- Cinq échecs de mise en forme engloutissent 90 % de vos heures de reprise post-conversion — et voici ce qu'aucun fournisseur d'outils ne vous dit : ce ne sont pas des bugs, c'est l'OCR qui fonctionne exactement comme prévu.
- L'OCR n'a pas été conçue pour les documents — elle voit les caractères comme des coordonnées de pixels sur une page, ce qui signifie qu'elle ne peut littéralement pas distinguer un saut de paragraphe d'un espacement de ligne, un tableau d'une grille de mots, ou un en-tête d'un corps de texte.
- Traiter le document visuellement — en reconnaissant les paragraphes, tableaux et en-têtes comme le ferait un lecteur humain — élimine les cinq échecs d'un coup en s'attaquant à leur cause racine commune, sans corriger chaque symptôme individuellement.
Le piège de l'OCR : pourquoi votre convertisseur voit des caractères, pas des documents
Pour comprendre pourquoi chaque mode d'échec de cette liste se produit, vous devez comprendre une chose : le PDF et Word représentent les documents de manière fondamentalement incompatible.
Un PDF est essentiellement une impression numérique. Il stocke chaque élément — une lettre, une ligne, un logo — comme un objet avec des coordonnées X/Y fixes sur un plan bidimensionnel. Le PDF « sait » que la lettre « H » se trouve à la position (124, 587) en Helvetica 11pt. Il ne sait pas que « H » est la première lettre d'un titre, ni que ce titre appartient à une section, ni que cette section se trouve dans un document avec une hiérarchie d'information spécifique. Ce sont des concepts humains que le PDF — par conception — n'encode pas.
Comme l'a dit un utilisateur de Reddit : « Convertir un PDF en Word, c'est moins comme traduire une langue que comme essayer de retransformer un gâteau cuit en farine, œufs et sucre. »
L'OCR (Reconnaissance Optique de Caractères) traditionnelle aggrave les choses. L'OCR lit les pixels d'une page et tente de les faire correspondre à des motifs de caractères connus — mais elle ne voit que des caractères à des coordonnées. Elle n'a aucune notion de pourquoi la conversion PDF vers Word perd le formatage car elle n'a jamais été conçue pour comprendre des documents. Elle a été conçue pour lire des plaques d'immatriculation et des pages de livres scannées — des contextes où « que signifie ce paragraphe ? » ne faisait jamais partie du problème.
Le résultat : cinq schémas d'échec récurrents qui expliquent la quasi-totalité des plaintes concernant le formatage lors de la conversion PDF vers Word. Voici à quoi chacun ressemble, pourquoi l'OCR le provoque, et comment une approche fondamentalement différente — l'IA Vision — élimine la cause racine.
Échec 1 : Perte et substitution de police
À quoi ça ressemble
Vous convertissez un PDF magnifiquement typographié — peut-être une proposition client en Calibri avec des titres de section en gras et des chiffres financiers en italique — et ouvrez le fichier Word obtenu. Le document entier est maintenant en Times New Roman. Pire, la taille de police est légèrement décalée, ce qui déclenche le moteur de réorganisation de Word, et soudain votre document de 12 pages soigneusement paginé devient 14 pages avec des titres orphelins échoués en bas de page.
Dans certains cas, vous obtenez une police qui est presque correcte mais pas tout à fait — votre texte de corps sans empattement devient un substitut sans empattement légèrement plus étroit, et chaque saut de ligne se décale d'un mot ou deux. Le document est techniquement lisible, mais vous ne l'enverriez pas à un client dans cet état.
Pourquoi l'OCR en est la cause
Les moteurs d'OCR reconnaissent les formes des caractères — ils ne reconnaissent pas les polices. Lorsque l'OCR traite une page PDF, il voit des motifs de pixels correspondant à des glyphes connus (la lettre « a » sous diverses formes) et produit le caractère Unicode correspondant. Les métadonnées de police — quelle police a été utilisée, à quel poids, avec quel ensemble stylistique — sont soit stockées dans le dictionnaire de polices du PDF (que l'OCR ignore), soit perdues si la police n'était pas intégrée au PDF.
La documentation d'Adobe explique la suite : lorsqu'une police est manquante ou non intégrée, le système la remplace par une police Multiple Master — AdobeSerifMM pour les polices serif manquantes, AdobeSansMM pour les polices sans serif manquantes. Ces polices de substitution « s'étirent ou se compriment pour s'adapter, en maintenant les sauts de ligne et de page » — mais elles « ne peuvent pas toujours correspondre à la forme des caractères d'origine ». Le résultat est un document structurellement préservé mais visuellement incorrect.
Pour les PDF numérisés, le problème est pire : il n'y a aucune métadonnée de police. Le moteur d'OCR devine l'identité des caractères à partir des motifs de pixels, et les informations sur la police sont tout simplement irrécupérables. Chaque caractère devient la police par défaut que le convertisseur lui attribue.
Comment Vision AI corrige le problème
Vision AI ne tente pas d'identifier les polices par leur nom. Au lieu de cela, il traite le document visuellement — il voit que certains textes sont plus grands, plus gras ou plus clairs que le texte environnant, et il préserve ces relations visuelles dans le résultat. Un titre visuellement plus grand et plus lourd dans le PDF sera rendu comme un titre plus grand et plus lourd dans le document Word. Il n'a pas besoin de savoir qu'il s'agissait de « Calibri Gras 16pt » — il doit simplement reproduire la hiérarchie de poids visuelle que le lecteur humain perçoit.
Il s'agit d'une stratégie fondamentalement différente : l'OCR demande « quelle est cette police ? » et échoue quand il ne peut pas répondre. Vision AI demande « à quoi ressemble ce texte par rapport au reste de la page ? » — une question à laquelle il peut toujours répondre car il traite le document de la même manière qu'un lecteur humain.
Échec 2 : Effondrement de la structure du tableau
À quoi cela ressemble
Vous convertissez un rapport financier avec un tableau bien formaté — des chiffres de revenus trimestriels sur six colonnes avec des cellules d'en-tête fusionnées et des lignes de sous-total. Dans le document Word obtenu, le contenu de chaque cellule est désormais un paragraphe indépendant, les relations entre colonnes ont disparu, et « Revenus T1 : 142 000 $ » se retrouve juste à côté de « Revenus T3 : 156 000 $ » sans aucune indication qu'ils étaient dans des colonnes différentes. Si le tableau d'origine avait des bordures invisibles (un choix de conception courant dans les rapports professionnels), le convertisseur ne détecte souvent même pas qu'un tableau existait.
Sur un fil Reddit consacré à ce problème précis, un utilisateur a noté que « les tableaux sont généralement ce qui casse en premier lors de la conversion » — et le consensus était que pour les documents riches en tableaux, l'approche la plus propre consiste souvent à supprimer tout le formatage et à reconstruire les tableaux manuellement. Ce n'est pas une solution, c'est un aveu de défaite.
Pourquoi l'OCR en est la cause
Voici le détail technique crucial qui explique tout : le PDF n'a pas de structure « tableau » native. Un tableau dans un PDF n'est qu'un ensemble d'objets texte positionnés en grille, avec éventuellement des commandes de tracé de lignes créant des bordures visibles. Il n'existe aucune métadonnée indiquant « ces six objets texte appartiennent à la même ligne » ou « cette cellule s'étend sur deux colonnes. »
Un convertisseur basé sur l'OCR doit rétro-concevoir le tableau à partir d'indices visuels : il cherche des colonnes de texte alignées, détecte les lignes tracées et tente de deviner quelles cellules vont ensemble. Lorsque l'espacement des colonnes est irrégulier, que les cellules sont fusionnées, que les bordures sont invisibles ou que le contenu des cellules s'étend sur plusieurs lignes — l'inférence échoue. Chaque cellule devient un bloc de texte indépendant, sans relation avec ses voisines.
C'est pourquoi convertir des documents scannés en Word avec des tableaux intacts a été un défi si tenace : le pipeline OCR a été conçu pour des flux de texte, pas pour reconstruire des structures de données bidimensionnelles à partir de seules coordonnées visuelles.
Comment Vision AI résout le problème
Vision AI traite les tableaux comme le ferait un humain : en observant la page et en comprenant sa structure en grille. Lorsqu'il détecte des colonnes de texte alignées avec un espacement horizontal cohérent et une répétition ligne par ligne, il reconnaît un tableau — même en l'absence de bordures visibles. Il préserve les cellules fusionnées, les fusions de colonnes et les en-têtes hiérarchiques, car il comprend l'architecture visuelle du tableau, et pas seulement les coordonnées de fragments de texte isolés.
Pour les tableaux sans bordures — un format qui fait échouer pratiquement tous les convertisseurs basés sur l'OCR — Vision AI est particulièrement efficace. Comme il repose sur la reconnaissance visuelle des motifs plutôt que sur des heuristiques de détection de lignes, il peut identifier les structures tabulaires uniquement à partir de l'alignement et de l'espacement du contenu.
Défaut 3 : Déplacement des images
À quoi cela ressemble
Votre PDF contient un graphique en page 3, entouré de deux paragraphes de texte explicatif parfaitement disposés autour. Vous le convertissez en Word. Le graphique se retrouve en page 5, superposé à un texte sans rapport, et les deux paragraphes censés l'entourer sont empilés au-dessus dans un bloc désordonné. Pire encore : l'image a tout simplement disparu — un espace vide ou un placeholder d'image brisée à l'endroit où se trouvait votre graphique de performance trimestrielle.
C'est particulièrement frustrant avec les documents riches en images comme les brochures marketing, les rapports techniques avec schémas intégrés, ou les articles académiques avec figures et légendes. Le texte dont vous avez besoin est là, mais la logique visuelle du document — la relation entre les images et leur contenu environnant — a été anéantie.
Pourquoi l'OCR en est la cause
Dans un PDF, les images et le texte occupent le même espace de coordonnées mais sont stockés comme des types d'objets totalement distincts. Une image est définie par ses coordonnées de boîte englobante et ses données pixel ; le texte environnant est défini par ses propres coordonnées de segments de texte. Il n'existe aucune relation explicite du type « cette image est ancrée à ce paragraphe » — le créateur du document avait cette intention, mais le format PDF ne l'encode pas.
L'OCR complique encore les choses. Les moteurs d'OCR sont conçus pour traiter le texte — les images sont soit ignorées, soit traitées comme des obstacles dans le flux textuel. Lorsque le convertisseur reconstruit le document Word, il doit décider où placer chaque image. Sans comprendre la relation spatiale entre l'image et le texte adjacent, il ancre souvent les images à des positions arbitraires — ou les supprime complètement lorsque la logique de placement ne trouve pas de point d'ancrage valide.
Comment Vision AI corrige le problème
Vision AI traite le document de manière holistique. Il ne considère pas les « canaux texte » et les « canaux image » comme des flux de traitement séparés à réconcilier ultérieurement — il voit une seule page avec des éléments visuels ayant des relations spatiales. Un graphique avec du texte enroulé sur son côté gauche n'est pas un casse-tête de placement ; c'est une scène visuelle unique que Vision AI comprend comme « graphique avec habillage de texte sur deux colonnes à gauche ».
Le résultat préserve les images dans leurs positions correctes par rapport au contenu environnant, car le modèle comprend le document visuellement — de la même manière que vous décririez la mise en page à quelqu'un qui ne pourrait pas la voir : « Il y a un diagramme à barres à droite, et le texte s'écoule autour de lui à gauche. »
Défaut 4 : Fusion de paragraphes
À quoi cela ressemble
C'est l'un des défauts les plus insidieux, car il est facile à manquer lors d'un survol rapide. Vous convertissez un contrat ou un rapport du PDF vers Word, et tout semble à peu près correct — jusqu'à ce que vous commenciez à lire. Là où il devrait y avoir des sauts de paragraphe, vous trouvez des murs de texte continus. Deux ou trois paragraphes logiques ont été fusionnés en un seul, séparés uniquement par un saut de ligne normal (Maj+Entrée dans Word) au lieu d'un saut de paragraphe (Entrée). L'indentation a disparu. La structure rhétorique du document — le rythme de l'argumentation, des preuves, de la conclusion — a été aplatie en un flux de texte indifférencié.
Pour les documents juridiques, c'est dangereux. Un paragraphe fusionné peut brouiller la frontière entre une clause et ses exceptions. Pour les rapports d'entreprise, cela nuit à la lisibilité. Pour tout document, cela signifie que l'éditeur doit désormais relire l'intégralité du texte et réinsérer manuellement les sauts de paragraphe — une tâche qui prend presque autant de temps que de retaper le document à partir de zéro.
Pourquoi l'OCR en est la cause
L'OCR enregistre les caractères et leurs coordonnées — il n'enregistre pas les limites des paragraphes. Un saut de paragraphe dans un PDF n'est pas un caractère spécial ; c'est simplement un espace vertical plus grand entre deux lignes de texte. Le moteur OCR enregistre cela comme « ligne de texte à Y=540, ligne de texte à Y=520, écart de 20 unités » — exactement la même structure de données qu'un saut de ligne dans un paragraphe, juste avec un décalage Y légèrement plus grand.
Le convertisseur est alors confronté à un problème de classification impossible : un écart vertical de 18 points est-il un saut de paragraphe ou simplement un interlignage généreux ? Un écart de 24 points avec indentation est-il un nouveau paragraphe ou un titre de section ? Sans comprendre le sens du texte, le convertisseur ne peut qu'appliquer des seuils heuristiques — « si l'écart > X, insérer un saut de paragraphe » — qui fonctionnent pour certains documents et échouent catastrophiquement pour d'autres.
Les mises en page multi-colonnes multiplient le problème. Lorsque deux colonnes sont côte à côte, l'ordre de lecture ligne par ligne de gauche à droite du moteur OCR produit un charabia : la première ligne de la colonne A concaténée avec la première ligne de la colonne B, suivie des deuxièmes lignes de chaque colonne. Le convertisseur ne connaît pas les colonnes — il ne connaît que les coordonnées des caractères sur un plan bidimensionnel.
Comment Vision AI résout le problème
Vision AI lit la page comme le ferait un humain : il repère les colonnes, reconnaît les motifs d'indentation et distingue les sauts de paragraphe (« fin d'une idée, début d'une autre ») des retours à la ligne (« même idée, manque de place horizontale »). Il identifie les motifs au niveau du document — indentation cohérente en début de paragraphe, espacement plus large entre les sections, alignement des titres — et utilise ces indices visuels pour reconstruire la structure logique du document.
Pour les documents multi-colonnes, Vision AI traite chaque colonne comme une zone de lecture distincte avant de les fusionner dans l'ordre séquentiel correct — texte complet de la colonne A, puis texte complet de la colonne B — plutôt que d'entrelacer les lignes de différentes colonnes.
Échec 5 : En-têtes, pieds de page et numéros de page disparaissent
À quoi cela ressemble
Votre document Word converti s'ouvre. Vous parcourez. Quelque chose cloche, mais vous n'arrivez pas à l'identifier immédiatement. Puis vous remarquez : l'en-tête courant « Confidentiel — Revue interne T3 » qui apparaissait sur chaque page du PDF a disparu. Les numéros de page se sont envolés. Le pied de page avec le code de référence du document s'est volatilisé. Ces éléments — qui figuraient systématiquement sur chaque page de l'original — ont tout simplement disparu du résultat converti.
Dans d'autres cas, ils n'ont pas disparu mais ont été mal identifiés : le texte de l'en-tête apparaît comme une phrase aléatoire insérée dans le corps de la première page, et le numéro de page « Page 3 sur 12 » se retrouve maladroitement au milieu d'un paragraphe de la page 3, comme s'il faisait partie de la phrase.
Pourquoi l'OCR en est la cause
Les en-têtes et pieds de page occupent une zone spatiale avec laquelle les moteurs d'OCR peinent pour deux raisons. Premièrement, ils se situent dans les marges — des zones périphériques que de nombreux moteurs d'OCR traitent comme secondaires ou ignorent carrément lors de l'extraction de texte, supposant que le contenu des marges est du bruit plutôt que de l'information. Deuxièmement, ils sont répétitifs — le même texte apparaît à peu près à la même position sur chaque page. Certains convertisseurs interprètent cette répétition comme un artefact d'impression et la suppriment délibérément.
Dans un PDF, il n'existe pas de distinction structurelle entre « ce texte est un en-tête » et « ce texte est un contenu de corps ». Les deux sont des objets textuels positionnés à des coordonnées spécifiques. Le convertisseur doit déduire quel texte doit devenir une section d'en-tête/pied de page Word et lequel doit rester dans le corps — et cette déduction repose sur des heuristiques fragiles concernant la position (haut/bas de page) et la répétition (même texte sur plusieurs pages). Lorsque ces heuristiques échouent — lorsqu'un document a des en-têtes uniques par section, ou lorsque du texte de corps se trouve accidentellement dans la zone d'en-tête — les résultats sont imprévisibles.
Comment l'IA Visuelle Résout le Problème
L'IA Visuelle identifie les en-têtes et pieds de page par leur rôle visuel : un texte positionné de manière cohérente dans les marges supérieure ou inférieure, qui se répète sur toutes les pages. Elle reconnaît que « Confidentiel — Revue Interne T3 » apparaissant à la même coordonnée Y sur chaque page est un en-tête courant, et non un texte de corps qui se trouve près du haut de la page. Elle détecte les numéros de page par leur motif de contenu (numéros incrémentés à la même position sur chaque page) et leur contexte spatial (généralement dans la zone de pied de page, souvent accompagné du texte « Page X sur Y »).
Le résultat préserve ces éléments en tant que sections d'en-tête et de pied de page Word natives, où ils fonctionnent correctement — apparaissant sur chaque page, se mettant à jour automatiquement si vous ajoutez ou supprimez des pages, se comportant exactement comme des en-têtes et pieds de page.
Au-delà du Pansement : Pourquoi l'Approche Compte Plus que l'Outil
Prenez du recul et observez ce que ces cinq modes de défaillance ont en commun. Dans chaque cas, la cause racine est la même : l'OCR traite les documents comme des coordonnées de caractères, et non comme des informations visuelles. Les polices échouent car l'OCR ne peut pas identifier les métadonnées de police. Les tableaux se brisent car l'OCR ne peut pas déduire une structure bidimensionnelle à partir de flux de texte unidimensionnels. Les images se déplacent car l'OCR les traite comme des obstacles, non comme des éléments. Les paragraphes fusionnent car l'OCR ne peut pas distinguer l'espacement des paragraphes de l'espacement des lignes. Les en-têtes disparaissent car l'OCR ne peut pas reconnaître les motifs de répétition spatiale.
Ce ne sont pas cinq bogues distincts nécessitant cinq correctifs distincts. C'est une seule limitation architecturale qui se manifeste de cinq manières différentes. Et l'implication est importante : aucune quantité de correctifs ou d'heuristiques ajoutés à un pipeline OCR ne résoudra ce problème. Vous pouvez ajuster le seuil d'espacement des paragraphes, améliorer l'algorithme de détection des tableaux, ajouter des règles de substitution de polices — et vous rencontrerez toujours des cas d'échec car le paradigme de traitement sous-jacent (reconnaissance de caractères sans compréhension du document) n'a pas changé.
C'est là que la différence entre l'IA Visuelle et l'OCR traditionnel devient plus qu'une distinction académique. L'IA Visuelle n'essaie pas de reconstruire la structure du document à partir de coordonnées de caractères — elle voit le document visuellement et comprend la mise en page comme le ferait un lecteur humain. Elle reconnaît les paragraphes par leurs motifs visuels, et non par des seuils d'écart vertical. Elle identifie les tableaux par leur structure en grille, et non par des algorithmes de détection de lignes. Elle préserve les polices en reproduisant les hiérarchies de poids visuels, et non en recherchant des noms de police.
Pour un guide complet de conversion de documents en Word avec préservation de la mise en page, le flux de travail est simple : téléchargez votre document, et le moteur d'IA Visuelle analyse la page entière — texte, tableaux, images, en-têtes, pieds de page — comme une seule scène visuelle. Il reconstruit le document dans un format Word modifiable en comprenant ce qu'est chaque élément et comment il se rapporte à chaque autre élément, et non en devinant à partir de données de coordonnées.
Cela signifie également que le même moteur gère les cas limites qui brisent complètement les pipelines OCR : captures d'écran converties en Word modifiable — où il n'y a aucune métadonnée de police PDF, seulement des pixels — ou des documents avec un contenu manuscrit et imprimé mélangé. Lorsque vous traitez le document visuellement, le format source importe beaucoup moins. Si vous comparez des outils spécifiques, notre comparaison des convertisseurs Word avec préservation de la mise en page détaille comment différentes approches gèrent chacun de ces cinq modes de défaillance.
Les fichiers sont traités de manière sécurisée et non stockés.
Questions fréquentes
Pourquoi mon PDF est parfait mais le document Word converti est un désastre ?
Le PDF est parfait car c'est un format à mise en page fixe — chaque élément est ancré à des coordonnées précises. Le document Word est un désastre car votre convertisseur a dû reconstruire paragraphes, tableaux et mise en forme à partir de données de coordonnées brutes, et cette reconstruction est intrinsèquement imparfaite lorsqu'elle est effectuée par OCR au niveau des caractères. Le document s'affiche parfaitement à l'écran car il était parfait — en tant que PDF. Le convertir en un format éditable signifie reconstruire la structure logique du document de zéro, ce qui est un défi fondamentalement différent.
Puis-je simplement intégrer toutes les polices dans mon PDF pour éviter la substitution de polices ?
L'intégration des polices est utile lorsque le PDF a été créé à partir d'une source numérique (comme un document Word enregistré au format PDF avec polices intégrées). Mais pour les PDF scannés — des documents papier numérisés — il n'y a pas de polices à intégrer. Le « texte » n'est que des pixels dans une image. L'OCR doit reconnaître les formes des caractères et les assigner à des valeurs Unicode, mais elle ne peut pas retrouver les informations de police d'origine, car celles-ci ont été perdues lors de la numérisation. Dans ces cas, l'approche de Vision AI, qui préserve les hiérarchies visuelles de poids plutôt que d'essayer d'identifier les polices, est la seule voie viable pour obtenir un résultat bien formaté.
Pourquoi certains convertisseurs en ligne fonctionnent-ils mieux que d'autres pour des documents spécifiques ?
Différents convertisseurs utilisent différentes heuristiques de détection de tableaux, seuils d'espacement entre paragraphes et règles de substitution de polices. Un convertisseur optimisé pour des rapports à une colonne avec un espacement généreux peut produire un résultat propre pour ce type de document, puis échouer complètement sur une newsletter multi-colonnes avec un espacement serré. C'est pourquoi vous passez d'un outil à l'autre — chacun est calibré pour un ensemble différent d'hypothèses de mise en page. Une approche Vision AI contourne ce problème en ne s'appuyant pas du tout sur des heuristiques spécifiques à la mise en page.
Une résolution de numérisation plus élevée résout-elle les problèmes de formatage PDF vers Word ?
Une résolution de numérisation plus élevée (300 DPI ou plus) améliore la précision de la reconnaissance des caractères par l'OCR — moins de confusions entre « 0 » et « O » — mais elle ne corrige pas les échecs structurels de cette liste. Un scan à 600 DPI n'indiquera toujours pas à l'OCR où les paragraphes commencent et se terminent, comment les cellules d'un tableau sont liées entre elles, ni où placer les en-têtes dans le résultat. La résolution améliore la précision du texte ; elle n'améliore pas la compréhension de la mise en page. Ce sont des capacités distinctes qui nécessitent une approche de traitement fondamentalement différente.
Dois-je convertir en Word ou en tableau structuré ?
Cela dépend de ce que vous devez faire avec le résultat. Si vous devez modifier, réviser ou réutiliser le document dans sa mise en page d'origine — un contrat nécessitant des révisions de clauses, un rapport nécessitant des mises à jour de contenu, une brochure nécessitant des modifications de texte — la sortie Word préserve le document visuel. Si vous devez analyser des données provenant de plusieurs documents — extraire les totaux de factures dans un tableur, comparer des devis de fournisseurs en colonnes — la sortie en tableau structuré (Excel/CSV) est la cible appropriée. Notre cadre de décision Vers Word ou Vers Tableau vous guide dans le choix en fonction de votre cas d'utilisation spécifique.
L'IA de vision peut-elle traiter des documents à plusieurs colonnes et mises en page complexes ?
Oui — c'est là que l'écart entre l'OCR et l'IA de vision est le plus grand. La lecture ligne par ligne de gauche à droite de l'OCR produit un résultat brouillé pour les documents multi-colonnes, car elle entremêle le texte de différentes colonnes. L'IA de vision traite chaque colonne comme une zone visuelle distincte avant de les ordonner dans le bon ordre de lecture, préservant ainsi l'expérience de lecture originale. Cette même capacité s'applique aux documents avec du texte s'écoulant autour d'images, d'encadrés, de notes marginales et d'autres mises en page non linéaires.