OCRのための画像前処理ガイド：認識精度を高める6ステップパイプライン

使えるOCR出力と再入力が必要な出力の違いは、多くの場合、エンジン自体ではなく、画像がOCRエンジンに渡される前の処理にあります。スマホで撮影した請求書、150DPIのFAX契約書、くしゃくしゃのレシート——これらこそ、前処理で修正すべき現実の入力です。適切に設計された6ステップのパイプラインは、ノイズが多く傾きがありコントラストの低い画像を、エンジンにとって清潔な印刷ページと同等に読み取り可能にします。

前処理がOCRエンジンより重要な理由

従来のOCRエンジン（Tesseract、ABBYY FineReader、Google Cloud Vision）は、フラットベッドスキャナで300 DPIで取り込んだ、クリーンで高コントラストなスキャンを前提に設計されています。しかし現実の画像はまったく異なります。スマートフォンで撮影した請求書には、撮影者の手による影、傾いた遠近感、レンズ歪みが生じます。FAXされた注文書は200 DPIでモアレ模様が発生します。くしゃくしゃのレシートには折り目による人工的なエッジができ、文字の一部は影に、別の部分は白飛びしています。

前処理がこのギャップを埋めます。文書画像2値化コンテスト（DIBCO）のベンチマークは、同じOCRエンジン・同じ文書でも、前処理技術の選択によって文字レベルの精度が15～40ポイント変動することを一貫して示しています。黄ばんだ紙、かすれたカーボンコピー、感熱紙レシートなど、劣化した文書ではその差はさらに広がります。

最も効果的な前処理ステップである2値化は、まったく同じ画像で文字精度を55%から95%に引き上げることができます。OCRエンジンのアップグレードでは、このような改善は決して得られません。

以下の6つのステップは、完全な前処理パイプラインを構成します。依存関係に従って順序付けられており、各ステップは前のステップが適用されていることを前提としています。元の画像がすでにクリーンな場合はステップをスキップできますが、順序を変更してはいけません。

ステップ1：グレースケール変換 — 信号を失わずに色を除去

カラー画像は赤、緑、青の3チャンネルを格納しており、それぞれ照明特性が異なります。混在照明下では、あるチャンネルが白飛びしても別のチャンネルにディテールが残ることがあります。3つすべてを個別に処理すると計算負荷が増大し、OCRに不要なチャンネル固有のノイズが発生します。グレースケール変換は輝度重み付け（Y = 0.299R + 0.587G + 0.114B）を用いてこれらを単一の輝度チャンネルに統合し、OCRが依存するコントラスト情報を保持しながら色ベースのノイズを除去します。結果は明るさのみが重要となる単一チャンネル画像となり、ノイズ除去の準備が整います。

ステップ2：ノイズ除去 — ガウシアン vs メディアン

ノイズの原因は多岐にわたります。スマートフォンカメラのセンサーノイズ、JPEG圧縮によるアーティファクト、印刷物のハーフトーンディザリング、スキャナーガラスの埃などです。ノイズの種類に応じて、2つの主要なフィルタリング手法を使い分けます。

ガウシアンブラーは、各ピクセルを周囲のピクセルと平均化し、カメラセンサーに典型的な正規分布の明るさの変動に効果的です。欠点はエッジがぼやけることで、9ptフォントの細い線画がOCRで分離しにくくなります。カーネルサイズは3×3または5×5で十分です。

メディアンフィルターは、各ピクセルを近傍の中央値に置き換えるため、スキャン文書やFAX文書によく見られるごま塩ノイズ（散在する白黒ピクセル）に劇的な効果を発揮します。孤立したノイズピクセルを除去しつつ、エッジはほぼそのまま保持します。標準ウィンドウサイズは3×3、ノイズが激しいスキャンでは5×5を使用します。

実用的な指針：散在する斑点にはメディアンフィルター、全体的なざらつきにはガウシアンブラーを適用します。どちらも控えめに使用すべきで、フィルターはノイズとともに本来のコンテンツも除去してしまいます。

ステップ3：二値化 — 最も効果の高い工程

二値化は、グレースケール画像を純粋な白黒画像に変換します。各ピクセルはインク（黒）か紙（白）のいずれかになります。この工程で、最大の精度向上と最大の精度低下が発生します。過去10年間のDIBCOコンペティションの結果によると、最良の二値化手法と単純な大域的閾値処理との間には、劣化文書において平均で30～40パーセントポイントもの差があります。誤った二値化手法を選ぶことは、前処理における最も一般的なミスです。

大津の二値化は、ほとんどのOCRライブラリでデフォルトの二値化手法です。黒と白のピクセルクラス間の分散が最大になるように、単一の大域的閾値を計算します。均一な照明下の白い紙に黒い文字が書かれた、クリーンで均一に照らされたスキャンでは、大津の二値化は一回の処理でほぼ完璧な二値化を実現します。問題は、現実の文書のほとんどが均一に照らされていないことです。机の上で撮影されたページには、明るい窓側から影側へのグラデーションがあります。大津の二値化は画像全体に一つの閾値を選択するため、影になったテキストは背景に埋もれ、明るい側のテキストは露出オーバーになります。

適応的閾値処理は、各ピクセルに対して周囲の近傍領域（通常15×15～51×51ピクセルのウィンドウ）に基づいて局所的な閾値を計算することで、この問題を解決します。領域ごとに独自の閾値が設定されるため、半分が影で半分が日向にある文書でも、ページ全体で読みやすいテキストが得られます。Sauvola法は適応的閾値処理を改良したもので、バイアス項を追加することで、カーボンコピーや歴史的文書によく見られる、線幅が変化する場合の性能を向上させます。

トレードオフは速度とパラメータ感度です。適応的閾値処理は大津の二値化より5～10倍遅く、ウィンドウサイズが出力に劇的な影響を与えます。小さすぎる（11×11未満）と大きな文字が背景として扱われ、大きすぎる（75×75以上）と大津の二値化に近い動作になります。適切な出発点は、画像幅の約1/20のウィンドウサイズです。

不均一な照明の文書（スマートフォンで撮影された文書画像の大半）では、大津の二値化から適応的閾値処理に切り替えることが、OCRパイプラインに対して行える最も投資対効果の高い変更です。これに匹敵する精度向上をもたらす前処理工程は他にありません。

ステップ4：傾き補正 — 文字行の誤読を防ぐ回転補正

傾き（文書画像の水平からの回転）は、カメラ撮影文書ではほぼ必ず発生し、スキャン文書でもよく見られます。わずかな傾きでもOCR精度は不釣り合いに低下します。これは、エンジンのセグメンテーションアルゴリズムが水平ベースラインを前提としているためです。学術誌Pattern Recognitionに掲載された研究では、その影響が正確に測定されています。5°の傾きで文字認識精度は15～20%低下します。10°では、行が行境界からずれるため、エラー率は40%を超えます。15°（文書を斜めから撮影すると容易に発生）では、ほとんどのOCRエンジンは改行境界のない、単一の結合された文字ストリームとしてテキストを出力します。

標準的な傾き補正方法はハフ変換を使用します。これは直線（テキストのベースライン）を検出し、その支配的な角度を計算し、画像をその角度の逆方向に回転させます。より簡単な代替方法として、投影プロファイル（各行の黒ピクセルの合計）を計算する方法があります。これはテキストが水平の場合にピークとなります。どちらの方法も、きれいな文書では0.1°以内の精度で収束します。ノイズの多い画像では、ハフ変換の方が外れ値の線を除外し、支配的なテキスト方向に集中できるため、より堅牢です。

ステップ5：余白除去 — レイアウト解析を妨げる端部ノイズの除去

スキャン文書やスマートフォン撮影画像には、文書自体以外の視覚的要素（スキャナ蓋の暗い端、机の上に置かれた文書の写真、FAXヘッダーのタイムスタンプなど）がほぼ常に含まれます。これらの要素はレイアウト解析ステップを妨害します。OCRアルゴリズムは連結成分を識別することでページ領域を検出するためです。太い黒い余白は画像全体の幅にわたる連結成分を作り出し、アルゴリズムはそれをページ境界と解釈します。その結果、実際の文書コンテンツ内に切り込んだり、近くのヘッダーテキストを誤った読み順に割り当てたりします。端にある文書の日付、ページ番号、仕入先名は、最初に失われる傾向があります。

自動余白除去では、輪郭検出を使用して文書コンテンツの最外郭の矩形境界を見つけ、その範囲に切り抜きます。アルゴリズムは各端から内側に向かってスキャンし、暗い余白から明るいページへの遷移を探します。切り抜きは控えめに行うべきです。切りすぎると端のテキストが失われ、薄いマージン（2～5ピクセル）を残しても後続の処理には影響しません。

ステップ6：解像度向上 — 画素数が実際に役立つケース

OCRの精度は画像解像度と明確な関係があります。200 DPIを下回ると、文字のエッジがピクセル化し、「O」とゼロ、小文字の「l」と大文字の「I」など、類似した字形の区別がつかなくなります。標準的な300 DPIのスイートスポットでは、8～12ptのフォントに十分な詳細を提供しつつ、ファイルサイズも管理可能な範囲に抑えられます。600 DPIでは精度は2～5%しか向上しない一方、ファイルサイズは4倍になります。

課題は、入力画像が常に制御下にあるとは限らないことです。モバイルで撮影したレシートの実効解像度は150 DPIかもしれません。ファックスは200 DPIに固定されています。このような場合、超解像技術 — ニューラルネットワークを使用して高解像度の詳細を推測する — によって失われた情報の一部を回復でき、200 DPI未満では控えめながらも測定可能な5～8パーセントポイントの向上が得られます。従来のバイキュービック補間では同じ効果は得られません。滑らかなエッジは生成しますが、実際の詳細は追加されません。何百万もの文書画像でトレーニングされた超解像のみが、ぼやけたパッチから鮮明な文字エッジを再構築できます。

前処理をスキップできるケース

上記の前処理パイプラインは、文字単位で動作する従来のOCRエンジン（Tesseract、ABBYY、Google Cloud Vision）向けに開発されました。これらのエンジンは、アーキテクチャにコンテキスト認識機能が欠如しているため、クリーンで高コントラストな入力が必要です。ノイズによる文字セグメントの欠落は、そのまま失われます。

最新のビジョン大規模言語モデル（VLM）ベースのOCR — ImageToTable.aiで使用されているアーキテクチャ — は動作が異なります。文字を一つずつ認識する代わりに、VLMは文書画像全体を視覚的なシーンとして読み取り、各領域の意味を理解することでデータを抽出します。何百万もの実世界の文書画像（電話の写真、くしゃくしゃのレシート、傾いたスキャン）でトレーニングされているため、前処理で修正される種類の劣化は、すでにトレーニングデータに含まれています。15°傾き、照明が混在する環境で撮影された文書は、モデルにとって例外的なケースではなく、数千のトレーニング例と統計的に区別がつきません。

これは前処理が時代遅れになったことを意味するわけではありません。極度に劣化した画像（完全に茶色くなった感熱レシート、5世代目のコピー）では、VLMでも適応的閾値処理やコントラスト強調の恩恵を受けます。しかし、日常的な使用の90%を占める中程度の実世界文書品質であれば、最新のVLMベースのツールは前処理パイプライン全体をスキップし、直接正確な抽出を行うことができます。

2つのアプローチの詳細な比較については、OCR vs. AI抽出：前処理が必要なケースおよび、最新の抽出ツールを使用したOCR精度向上ガイドをご覧ください。

よくある前処理の問題と対処法

二値化後に文字が消える

閾値が強すぎます。大津の二値化から、画像幅の1/20のウィンドウサイズで適応的閾値処理に切り替えてください。深い影が残る場合は、事前にコントラスト制限適応ヒストグラム均等化（CLAHE）を適用してください。

ノイズ除去で細い線や句読点が消える

カーネルサイズが大きすぎます。3×3カーネルに縮小するか、ガウシアンフィルタから、細いエッジを保持しやすいメディアンフィルタに切り替えてください。細字文書の場合、画像が既にきれいならノイズ除去を完全にスキップしてください。

傾き補正で過回転または回転不足が発生する

ハフ変換が枠線や表の罫線など、誤った支配的な線を検出している可能性があります。傾き補正前に境界線を除去するか、画像の上下5%をマスクしてください。ほぼ全幅の線だけをベースラインとして認識するよう、ハフ変換の閾値を上げてください。

本番ボリュームで処理時間が長すぎる

適応的閾値処理と超解像は計算コストが高いです。大量バッチ処理には、これらの変換を1ページあたり1回の推論パスで内部的に処理するVLMベースの抽出ツールの利用を検討してください。

よくある質問

すべての文書に前処理は必要ですか？

いいえ。白い紙に黒文字で300 DPIでスキャンされたきれいな文書には前処理は不要です。パイプラインの効果は、入力がその理想から離れるほど高まります。スマートフォンの写真、FAX、感熱紙レシート、かすれた原本などに最も効果的です。VLMベースのツールを使用する場合、その閾値はさらに低く、モデルが適度な傾き、照明ムラ、ノイズを内部的に処理します。

前処理は手書き文字と印刷文字で異なる影響を与えますか？

はい。印刷文字は線幅と間隔が均一なため、標準的なパイプラインで良好に処理できます。手書き文字は線幅が不均一で、文字が重なり、間隔も不揃いです。特に大津の二値化のような強い二値化処理は、筆記体のストロークをひと塊にしてしまいます。手書き文書の場合は、より大きな適応的二値化のウィンドウサイズ（51×51以上）を使用し、ノイズ除去は控えめにしてください。一部のVLMベースのツールでは、手書き文字に対して二値化をスキップし、グレースケール画像を直接処理します。詳細は、OCRが手書き文字を苦手とする理由のガイドをご覧ください。

文書スキャンにはどのDPIを使用すべきですか？

300 DPIがほとんどのビジネス文書の標準です。8～12ポイントのフォントを十分な詳細さで読み取れ、カラー1ページあたり約25MBになります。200 DPIは大きなフォント（14ポイント以上）の文書に適しています。600 DPIはOCRにはほとんど不要で、300 DPIと比較した精度向上は平均2～5%である一方、ファイルサイズは4倍になります。例外は、非常に小さなフォント（6～8ポイントの脚注、細字部分）の文書です。

前処理で、文書のぼやけたスマホ写真を修正できますか？

部分的には可能です。軽度のブレ（3ピクセル未満）は、WienerフィルタやRichardson-Lucyデコンボリューションフィルタ（OpenCVやscikit-imageで利用可能）で補正できます。中程度のブレ（3～10ピクセル）には、ニューラルネットワークによるデブラリングモデルが必要です。重度のピンボケは通常、復元不可能です。文字のストロークのエッジといった高周波情報が、センサーでそもそも取得されていないためです。カメラを固定し、文書を平らにして撮り直すことが唯一の確実な解決策です。

前処理の前に、PDFページを画像に変換すべきですか？

PDFの種類によります。デジタル生成のPDFはテキストを選択でき、OCRは不要です。スキャンPDFは画像をPDFでラップしたものです。PopplerのpdftoppmやPythonのpdf2imageを使用して各ページを300 DPIのPNGにレンダリングし、その後パイプラインを適用してください。完全なワークフローについては、スキャンPDFからのデータ抽出ガイドをご覧ください。

どの前処理ステップが問題を引き起こしているか、どうやって特定しますか？

各ステップの出力を個別の画像ファイルとして保存してください。OCRの出力がひどい場合、まず二値化画像を確認してください。このステップの精度のばらつきが最も大きいためです。二値化がきれいでも出力が正しくない場合は、傾き補正後の画像と生の入力を比較してください。目に見えない3°の残留傾きでも、精度が10%低下することがあります。中間出力を保存しておくことで、どこでエラーが発生したかを正確に特定できます。

パイプラインが解決策にならない場合

6ステップのパイプラインは、スキャナーやDPIを自分で選べるなど、入力を制御できる場合に適したアプローチです。しかし、現実の多くのシナリオではそうはいきません。請求書は、デジタル生成のPDFからスマートフォンの写真まで、数百ものベンダーからさまざまな形式で届きます。前処理の負担はツール側に移ります。

ImageToTable.aiのようなVLMベースの抽出ツールは、カスタム列抽出を使用して、ピクセル座標ではなく意味的な意味に基づいてデータフィールドを特定します。このツールは、前処理パイプラインを推論プロセスに組み込んでいます。傾き、影、低解像度のまま、ドキュメントをそのままアップロードしてください。モデルはドキュメント全体を読み取り、定義された列に構造化データを抽出します。

だからといって、前処理の知識が無意味になるわけではありません。各ステップを理解することで、特定の画像で抽出ツールが失敗する理由を診断し、何を修正すべきかを正確に把握できます。ドキュメントタイプ別の抽出失敗の診断方法については、ドキュメントタイプによってOCR精度の低下が異なる理由をご覧ください。

最良の前処理パイプラインとは、考える必要がないものです。なぜなら、抽出ツールが内部で処理してくれるからです。しかし、パイプラインが何を行うかをステップごとに理解しているかどうかが、信頼性の高い抽出を実現するユーザーと、入力画像が原因の問題をツールのせいにするユーザーを分けます。

6ステップのパイプラインを適用する前と後で、同じドキュメントを使って抽出ツールをテストしてください。その差が、ワークフローに必要な前処理の量を正確に教えてくれます。