Prétraiter les images pour l'OCR : un pipeline en 6 étapes pour une meilleure reconnaissance

La différence entre un résultat OCR exploitable et un résultat à retaper tient souvent moins au moteur lui-même qu'à ce qui arrive à l'image avant qu'il ne la voie. Une photo de facture prise au téléphone, un contrat faxé à 150 DPI, un reçu froissé — voilà les entrées réelles que le prétraitement est conçu pour corriger. Un pipeline bien conçu en six étapes peut transformer une image bruitée, inclinée et à faible contraste en un document aussi lisible pour le moteur qu'une page imprimée nette.

Pourquoi le prétraitement compte plus que le moteur OCR

Les moteurs OCR classiques — Tesseract, ABBYY FineReader, Google Cloud Vision — ont été conçus pour des scans nets et à fort contraste issus de scanners à plat à 300 DPI. Les images réelles n'ont rien à voir. Une photo de facture prise avec un téléphone présente des ombres de la main du photographe, une perspective déformée et des distorsions optiques. Un bon de commande faxé arrive à 200 DPI avec des motifs de moiré. Un ticket de caisse froissé a des pliures qui créent des bords artificiels, et certaines parties du texte sont dans l'ombre tandis que d'autres sont surexposées.

Le prétraitement comble cet écart. Les benchmarks du concours DIBCO (Document Image Binarization Contest) montrent systématiquement que le choix de la technique de prétraitement peut faire varier la précision au niveau des caractères de 15 à 40 points de pourcentage sur le même moteur OCR avec le même document. Sur les documents dégradés — papier jauni, copies carbone pâles, tickets thermiques — l'écart se creuse encore.

L'étape de prétraitement la plus impactante — la binarisation — peut faire la différence entre 55 % et 95 % de précision des caractères sur la même image. Aucune mise à niveau du moteur OCR n'offre un tel gain.

Les six étapes ci-dessous forment un pipeline de prétraitement complet. Elles sont ordonnées par dépendance : chaque étape suppose que la précédente a été appliquée. Vous pouvez sauter des étapes si vos images sources sont déjà propres, mais l'ordre ne doit pas être modifié.

Étape 1 : Conversion en niveaux de gris — Supprimer la couleur sans perdre le signal

Une image couleur stocke trois canaux — rouge, vert et bleu — chacun avec ses propres caractéristiques d'éclairage. Sous un éclairage mixte, un canal peut être saturé tandis qu'un autre conserve les détails. Traiter les trois indépendamment multiplie la charge de calcul et introduit un bruit spécifique à chaque canal dont l'OCR n'a pas besoin. La conversion en niveaux de gris les fusionne en un seul canal de luminance en utilisant une pondération de la luminance (Y = 0,299R + 0,587G + 0,114B), préservant les informations de contraste dont l'OCR a besoin tout en éliminant le bruit lié à la couleur. Le résultat est une image à un seul canal où seule la luminosité compte, prête pour la suppression du bruit.

Étape 2 : Suppression du bruit — Choisir entre flou gaussien et filtre médian

Le bruit provient de multiples sources : bruit du capteur dans les appareils photo des téléphones, artefacts de compression JPEG, tramage par demi-teintes dans les documents imprimés et poussière sur la vitre du scanner. Deux approches de filtrage dominent, chacune adaptée à différents types de bruit.

Le flou gaussien fait la moyenne de chaque pixel avec ses voisins et est efficace contre les variations de luminosité normalement distribuées, typiques des capteurs d'appareil photo. L'inconvénient est l'adoucissement des contours — les traits fins d'une police de 9 points deviennent plus difficiles à séparer pour l'OCR. Un noyau de 3×3 ou 5×5 est généralement suffisant.

Le filtrage médian remplace chaque pixel par la médiane de son voisinage, ce qui le rend nettement plus efficace contre le bruit poivre et sel — les pixels blancs et noirs épars courants dans les documents scannés ou faxés. Il supprime les pixels isolés tout en préservant presque intacts les contours. La taille de fenêtre standard est de 3×3 ; 5×5 pour les scans fortement corrompus.

La règle pratique : des points épars appellent un filtrage médian. Un grain généralisé appelle un flou gaussien. Les deux doivent être appliqués avec parcimonie — chaque filtre supprime du contenu réel en même temps que le bruit.

Étape 3 : Binarisation — L'étape au plus fort impact

La binarisation convertit une image en niveaux de gris en une image purement noir et blanc : chaque pixel est soit de l'encre (noir), soit du papier (blanc). C'est l'étape où se produisent les plus grands gains de précision — et les plus grandes pertes de précision. Les résultats des compétitions DIBCO de la dernière décennie montrent que l'écart entre la meilleure méthode de binarisation et un seuillage global simple atteint en moyenne 30 à 40 points de pourcentage sur les documents dégradés. Choisir la mauvaise méthode de binarisation est l'erreur de prétraitement la plus courante.

La méthode d'Otsu est la binarisation par défaut dans la plupart des bibliothèques OCR. Elle calcule un seuil global unique en maximisant la variance entre les classes de pixels noirs et blancs. Sur un scan propre et uniformément éclairé — une page blanche avec du texte noir sous un éclairage uniforme — Otsu produit une binarisation quasi parfaite en un seul passage. Le problème est que la plupart des documents réels ne sont pas uniformément éclairés. Une page photographiée sur un bureau présente un dégradé allant du côté lumineux de la fenêtre au côté ombragé. Otsu choisit un seuil pour l'image entière, ce qui signifie que le texte dans l'ombre disparaît dans l'arrière-plan tandis que le texte du côté lumineux est surexposé.

Le seuillage adaptatif résout ce problème en calculant un seuil local pour chaque pixel en fonction de son voisinage — généralement des fenêtres de 15×15 à 51×51 pixels. Chaque région obtient son propre seuil, de sorte qu'un document à moitié dans l'ombre et à moitié en plein soleil produit un texte lisible sur toute la page. La méthode de Sauvola, un raffinement du seuillage adaptatif, ajoute un terme de biais qui améliore les performances sur des épaisseurs de trait variables — courantes sur les copies carbone et les documents historiques.

Le compromis est la vitesse et la sensibilité aux paramètres. Le seuillage adaptatif est 5 à 10 fois plus lent qu'Otsu, et la taille de la fenêtre affecte considérablement le résultat : trop petite (en dessous de 11×11), les grands caractères sont traités comme de l'arrière-plan ; trop grande (au-dessus de 75×75), elle se rapproche du comportement d'Otsu. Un bon point de départ est une taille de fenêtre d'environ 1/20e de la largeur de l'image.

Sur les documents inégalement éclairés — la majorité des images de documents capturées par téléphone — passer d'Otsu au seuillage adaptatif est le changement au meilleur retour sur investissement que vous puissiez apporter à votre pipeline OCR. Aucune autre étape de prétraitement ne produit un bond de précision comparable.

Étape 4 : Désinclinaison — Corriger la rotation avant que les lignes de texte soient mal lues

L'inclinaison — la rotation d'une image de document par rapport à l'horizontale — est quasi universelle dans les documents capturés par appareil photo et courante dans les documents numérisés. Même une légère inclinaison dégrade de manière disproportionnée la précision de l'OCR, car les algorithmes de segmentation du moteur supposent des lignes de base horizontales. Des recherches publiées dans la revue Pattern Recognition ont mesuré précisément l'effet : à 5°, la précision au niveau des caractères chute de 15 à 20 %. À 10°, le taux d'erreur dépasse 40 % car les lignes ne s'alignent plus avec leurs limites de rangée. À 15° — facilement obtenu en photographiant un document en biais — la plupart des moteurs d'OCR produisent un flux de caractères fusionné unique, sans limites de saut de ligne.

La méthode standard de désinclinaison utilise la transformée de Hough, qui détecte les lignes droites (lignes de base du texte) et calcule leur angle dominant, puis fait pivoter l'image de l'opposé de cet angle. Une alternative plus simple calcule le profil de projection — la somme des pixels noirs par ligne, qui atteint un pic lorsque le texte est horizontal. Les deux méthodes convergent à 0,1° près sur des documents propres. Sur des images bruitées, la transformée de Hough est plus robuste car elle peut ignorer les lignes aberrantes et se concentrer sur la direction dominante du texte.

Étape 5 : Suppression des bordures — Empêcher les artefacts de bord de perturber l'analyse de la mise en page

Les documents numérisés et les images capturées par téléphone incluent presque toujours du contenu visuel en dehors du document lui-même — bords sombres du couvercle du scanner, page photographiée sur un bureau, horodatages d'en-tête de fax. Ces éléments corrompent l'étape d'analyse de la mise en page car les algorithmes d'OCR détectent les régions de la page en identifiant les composants connectés. Une bordure noire épaisse crée un composant connecté couvrant toute la largeur de l'image, que l'algorithme interprète comme une limite de page — ce qui l'amène à recadrer le contenu réel du document ou à attribuer le texte d'en-tête voisin au mauvais ordre de lecture. Les dates de document, numéros de page et noms de fournisseur en bordure sont généralement les premiers à disparaître.

La suppression automatisée des bordures utilise la détection de contours pour trouver la limite rectangulaire la plus externe du contenu du document et recadre à celle-ci. L'algorithme scanne vers l'intérieur depuis chaque bord à la recherche de la transition entre la bordure sombre et la page claire. Le recadrage doit être conservateur : recadrer trop agressivement supprime le texte marginal, tandis que laisser une fine marge (2 à 5 pixels) n'affecte pas le traitement en aval.

Étape 6 : Amélioration de la résolution — Quand plus de pixels aident vraiment

La précision de l'OCR est liée à la résolution de l'image. En dessous de 200 DPI, les bords des caractères deviennent pixelisés au point que des glyphes similaires deviennent indiscernables — "O" vs zéro, "l" minuscule vs "I" majuscule. Le standard de 300 DPI offre un bon équilibre, fournissant suffisamment de détails pour les polices de 8 à 12 points tout en gardant des fichiers de taille raisonnable. À 600 DPI, la précision ne s'améliore que de 2 à 5 % tandis que la taille des fichiers quadruple.

Le problème est que les images d'entrée ne sont pas toujours sous votre contrôle. Une photo mobile d'un reçu peut avoir une résolution effective de 150 DPI ; un fax est fixé à 200 DPI. Pour ces cas, les techniques de super-résolution — utilisant des réseaux de neurones pour déduire des détails haute résolution — peuvent récupérer une partie de l'information perdue, offrant un gain modeste mais mesurable de 5 à 8 points de pourcentage en dessous de 200 DPI. Le suréchantillonnage bicubique traditionnel ne produit pas le même bénéfice ; il crée des bords lisses mais n'ajoute aucun détail réel. Seule la super-résolution — entraînée sur des millions d'images de documents — peut reconstruire des bords de caractères nets à partir de zones floues.

Quand vous pouvez sauter le prétraitement

Le pipeline de prétraitement ci-dessus a été développé pour les moteurs OCR traditionnels — Tesseract, ABBYY, Google Cloud Vision — qui opèrent caractère par caractère. Ces moteurs ont besoin d'une entrée propre et à fort contraste car leur architecture manque de conscience contextuelle. Un segment de caractère manquant dû au bruit est simplement perdu.

L'OCR basé sur un modèle de langage visuel (VLM) moderne — l'architecture utilisée par ImageToTable.ai — fonctionne différemment. Au lieu de reconnaître les caractères un par un, un VLM lit l'image entière du document comme une scène visuelle et extrait les données en comprenant ce que chaque région signifie. Entraîné sur des millions d'images de documents réels — photos de téléphone, reçus froissés, scans inclinés — les types de dégradation que le prétraitement corrige sont déjà représentés dans ses données d'entraînement. Un document photographié avec une inclinaison de 15° sous un éclairage mixte n'est pas un cas particulier pour le modèle ; il est statistiquement indiscernable de milliers d'exemples d'entraînement.

Cela ne signifie pas que le prétraitement est obsolète. Sur des images extrêmement dégradées — un reçu thermique devenu entièrement brun, une photocopie de cinquième génération — même un VLM bénéficie d'un seuillage adaptatif ou d'une amélioration du contraste. Mais pour la gamme moyenne de qualité de documents réels qui représente 90 % de l'utilisation quotidienne, un outil moderne basé sur VLM peut sauter l'ensemble du pipeline de prétraitement et effectuer une extraction précise directement.

Pour une comparaison plus approfondie des deux approches, consultez OCR vs. Extraction IA : Quand le prétraitement est nécessaire et notre guide sur l'amélioration de la précision de l'OCR avec des outils d'extraction modernes.

Dépannage des problèmes de prétraitement courants

Le texte disparaît après la binarisation

Votre seuil est trop agressif. Passez d'Otsu à un seuillage adaptatif avec une fenêtre de 1/20e de la largeur de l'image. Si des ombres profondes persistent, appliquez d'abord une égalisation d'histogramme adaptative à contraste limité (CLAHE).

Les traits fins et la ponctuation sont perdus après le débruitage

La taille de votre noyau est trop grande. Passez à un noyau 3×3, ou passez du filtre gaussien au filtre médian, qui préserve mieux les bords fins. Pour les documents à petits caractères, ignorez complètement le débruitage si l'image est déjà propre.

Le redressement sur- ou sous-rotationne l'image

La transformée de Hough a probablement détecté une fausse ligne dominante — un bord de cadre ou une règle de tableau. Supprimez les bordures avant le redressement, ou masquez les 5% supérieurs et inférieurs de l'image. Augmentez le seuil de Hough pour que seules les lignes quasi pleine largeur soient considérées comme des lignes de base.

Le temps de traitement est trop long pour les volumes de production

Le seuillage adaptatif et la super-résolution sont coûteux en calcul. Pour les lots volumineux, envisagez d'utiliser un outil d'extraction basé sur VLM qui gère ces transformations en interne en une seule inférence par page.

Questions fréquentes

Le prétraitement est-il nécessaire pour chaque document ?

Non. Un scan net à 300 DPI de texte noir sur fond blanc n'en a pas besoin. Le pipeline apporte d'autant plus de valeur que l'entrée s'éloigne de cet idéal : photos de téléphone, fax, tickets thermiques et originaux délavés en bénéficient le plus. Avec un outil basé sur VLM, le seuil est bien plus bas — le modèle gère lui-même l'oblique modérée, l'éclairage irrégulier et le bruit.

Le prétraitement affecte-t-il la reconnaissance de l'écriture manuscrite différemment du texte imprimé ?

Oui. Le texte imprimé a des largeurs de trait et un espacement réguliers, donc le pipeline standard fonctionne bien. L'écriture manuscrite a des traits variables, des caractères qui se chevauchent et un espacement non uniforme. Une binarisation agressive (surtout Otsu) fusionne les traits cursifs en blobs. Pour les documents manuscrits, utilisez une fenêtre de seuillage adaptatif plus grande (51×51 ou plus) et un débruitage plus doux. Certains outils basés sur VLM ignorent la binarisation pour l'écriture manuscrite et traitent directement l'image en niveaux de gris. Consultez notre guide sur pourquoi l'OCR a du mal avec l'écriture manuscrite pour une analyse plus approfondie.

Quel DPI utiliser pour numériser des documents ?

300 DPI est la norme pour la plupart des documents professionnels — assez de détails pour les polices de 8 à 12 points, environ 25 Mo par page couleur. 200 DPI convient aux documents en gros caractères (14 points et plus). 600 DPI est rarement nécessaire pour l'OCR ; le gain de précision par rapport à 300 DPI n'est que de 2 à 5 % en moyenne, tandis que la taille des fichiers quadruple. L'exception concerne les documents avec des polices très petites (notes de bas de page en 6–8 points, mentions légales).

Le prétraitement peut-il corriger une photo floue d'un document prise avec un téléphone ?

Partiellement. Un flou de bougé léger (moins de 3 pixels) peut être corrigé avec un filtre de déconvolution de Wiener ou Richardson-Lucy (disponible dans OpenCV et scikit-image). Un flou modéré (3–10 pixels) nécessite un modèle de débruitage neuronal. Un flou de mise au point important est généralement irrécupérable — les hautes fréquences (bords des traits des caractères) n'ont jamais été capturées par le capteur. Reprendre la photo avec l'appareil stable et le document à plat est la seule solution fiable.

Faut-il convertir les pages PDF en images avant le prétraitement ?

Cela dépend du type de PDF. Les PDF natifs contiennent du texte sélectionnable et n'ont pas besoin d'OCR. Les PDF scannés sont des collections d'images dans une enveloppe PDF — convertissez chaque page en PNG à 300 DPI avec pdftoppm de Poppler ou pdf2image de Python, puis appliquez le pipeline. Consultez notre guide pour extraire des données de PDF scannés pour un flux de travail complet.

Comment savoir quelle étape de prétraitement pose problème ?

Enregistrez la sortie de chaque étape dans un fichier image séparé. Si le résultat de l'OCR est mauvais, commencez par l'image binarisée — c'est l'étape avec la plus grande variance de précision. Si la binarisation semble propre mais que le résultat est toujours erroné, comparez l'image redressée à l'entrée brute : une obliquité résiduelle de 3° invisible à l'œil peut faire chuter la précision de 10 %. Chaque étape intermédiaire sauvegardée vous indique exactement où l'erreur a été introduite.

Quand le pipeline n'est pas la solution

Le pipeline en six étapes est la bonne approche quand vous contrôlez l'entrée — vous choisissez le scanner et la résolution. Mais dans de nombreux scénarios réels, ce n'est pas le cas. Les factures arrivent de centaines de fournisseurs dans des formats allant des PDF natifs aux photos de téléphone. La charge du prétraitement incombe alors à l'outil.

Un outil d'extraction basé sur VLM comme ImageToTable.ai — qui utilise l'Extraction de colonnes personnalisées pour localiser les champs de données par leur sens plutôt que par leurs coordonnées pixels — intègre le pipeline de prétraitement dans son processus d'inférence. Vous téléchargez le document tel quel : incliné, ombragé, basse résolution. Le modèle lit le document dans son ensemble et extrait les données structurées dans les colonnes que vous avez définies.

Cela ne rend pas la connaissance du prétraitement obsolète. Comprendre chaque étape vous aide à diagnostiquer pourquoi un outil d'extraction pourrait échouer sur une image particulière — et vous indique exactement quoi corriger. Pour une procédure pas à pas sur le diagnostic des échecs d'extraction par type de document, voir pourquoi les baisses de précision OCR varient selon le type de document.

Le meilleur pipeline de prétraitement est celui auquel vous n'avez pas à penser — parce que l'outil d'extraction le gère en interne. Mais savoir ce que fait le pipeline, étape par étape, est ce qui distingue un utilisateur qui obtient une extraction fiable de celui qui blâme l'outil pour un problème causé par l'image d'entrée.

Testez votre outil d'extraction sur le même document avant et après avoir appliqué le pipeline en six étapes. La différence vous dira exactement de combien de prétraitement votre flux de travail a besoin.