OCR vs Vision AI:どちらの文書
レイアウトがWord変換で生き残るか
Firstsourceの独立したベンチマークによると、ビジョン言語モデル(VLM)は複雑な文書レイアウトで67%の精度に達し、従来のOCRは40~60%で頭打ちとなっています。DONUTのようなエントリーレベルのVLMでも52%のスコアで、従来のOCRの上限をすでに上回っています。その差は微々たるものではありません。両技術は文書の読み取り方法が根本的に異なります。
重要ポイント
- PDFからWordへの変換後、書式の崩れを修正するのに1文書あたり15~30分かかっています。すべての乱れた表の原因は、文書構造を理解するどころか保持することも想定されていない技術にあります。
- OCRが誇る95%の文字認識精度は目くらましです。認識後の4つの再構築工程で誤差が次々と増幅され、Wordに到達する頃にはレイアウトは崩壊し、どんな精度数値も予測できなくなります。
- Vision AIは、あなたと同じように文書を読み取ります。つまり、表、画像、見出し、段落が互いに関連性を持った一つの視覚的なシーンとして捉え、座標から再構成すべき文字の散布図としては捉えません。
OCRパイプライン:従来の変換が実際に文書を読み取る仕組み
PDFからWordへの変換で書式が崩れる理由を理解するには、従来のOCRがページを処理する際のステップを把握する必要があります。
プロセスは文字認識から始まります。OCRエンジンはピクセルの各行をスキャンし、文字として分類します。「A」の形、「3」の形、カンマの形などです。鮮明で高解像度の印刷テキストでは、これはかなりうまく機能します。GoogleのDocument AIやAWS Textractは、鮮明な文書で95%以上の文字レベル精度を達成しており、これはLLMが同じ入力で達成する精度に匹敵します。
文字精度は問題ではありません。問題はその後に起こることです。
OCRが認識した文字とそのページ上のx,y座標のリストを取得すると、文字認識だけでは解決できない一連の再構築タスクに直面します。文字を単語に、単語を行に、行を段落にグループ化する必要があります。テキストの近くにある水平線や垂直線が表であることを理解し、どのセルにどのテキストが含まれ、どのセルを結合すべきかを再構築する必要があります。列内の大きな空白領域が埋め込み画像なのか単なる空白なのかを判断する必要があります。また、あるテキストブロックが14ポイント太字で、別のブロックが11ポイント標準である理由と、その階層が何を意味するのかを判断する必要があります。
これらのステップ(テキストブロックのグループ化、表の検出、画像とテキストの分離、階層の割り当て)はすべて、生の文字出力の上に積み重ねられた個別のアルゴリズムです。それぞれに独自のエラー率があります。そしてエラーは複合的に積み重なります。95%の文字精度でも、それぞれ85~90%で動作する4つの下流の再構築ステップを経ると、最終的なレイアウトの忠実度は、初期の精度数値が示唆するものをはるかに下回ります。
この複合効果こそが、PDFからWordへの変換後にユーザーが遭遇する、すべての壊れた表、迷子のテキストボックス、欠落した画像領域の背後にあるメカニズムです。OCRエンジンが「失敗」したのではありません。そもそもこれらの再構築タスクを実行する能力がなかったのです。これらのタスクには、文書に含まれる文字だけでなく、文書が意味することを理解する必要があります。PDFからWordへの変換で書式が失われる理由についての詳細で説明しているように、PDF形式自体がテキストをフローする段落ではなく配置されたオブジェクトとして保存するため、ソースがそもそもWord文書ではなかった場合、この再構築は特に脆弱になります。
Vision AIが変える4つの次元
ビジョン言語モデル(VLM)——GPT-4o、Claude、Gemini、そしてNVIDIAのNemotron Parseのような専門文書モデルを含むモデル群——は、まったく逆のアプローチで問題に取り組みます。文字を先に認識してから構造を構築するのではなく、文書全体を単一の視覚シーンとして処理します。モデルは人間の読者と同じようにページを「見る」のです。つまり、それぞれが視覚的な役割と互いの意味的関係を持つ領域の構成物として捉えます。
この違いは、レイアウト保存の4つの重要な次元に現れます。各次元は、従来のOCRの段階的アプローチがエラーを生み出す箇所であり、統合された視覚モデルではそもそも発生しません。
1. テキストブロックレベルの理解
OCRの動作。個々の文字を認識し座標をマッピングした後、OCRエンジンは空間的近接ヒューリスティックを適用してグループ化します。互いにNピクセル以内の文字は単語に、Mピクセル以内の単語は行に、一定の垂直ギャップ内の行は段落になります。複数カラムのレイアウト、サイドバー、コールアウトボックス、不規則なテキストフロー——ヘッダーブロック、支払条件のサイドバー、明細テーブルが同一ページにある請求書——がある場合、これらのヒューリスティックは機能しません。サイドバーのテキストが本文に統合され、カラムの境界が曖昧になり、読み順が乱れます。
Vision AIの動作。VLMは、複数のスケールで空間関係を同時に捉えるビジョントランスフォーマーを通じてページ全体をエンコードします。「Xピクセル離れたテキスト断片が段落を形成する」と推測する必要はなく、空白、境界線、背景色の変化で区切られた長方形のテキストブロックを視覚的単位として認識します。モデルは、右上の異なる背景色のブロックがサイドバーであり、本文の続きではないと理解します。科学論文の2つの並列カラムが、分割された1行のテキストではなく、別々の読み取りフローであると認識します。
実際の結果:ヘッダー、請求先住所ブロック、明細テーブル、フッターノートセクションからなる複数セクションの請求書——OCRで変換すると、これら4つの領域はしばしば1つの未分化なテキストストリームに統合されます。VLMで変換すると、各ブロックは空間的境界と読み順を維持します。レイアウトはそのまま残ります。
2. テーブル構造認識
OCRの限界。 ここに最も大きな差があります。PDFにはネイティブなテーブル構造がなく、座標に配置されたテキストとその間に描かれた線分の組み合わせでテーブルを擬似的に表現しています。OCRエンジンは、線分がグリッドを形成していることをアルゴリズムで検出し、各テキスト断片を正しいセルにマッチングさせ、結合セルを特定し、列ヘッダー行を決定する必要があります。Winder.aiの技術解説によれば、「OCRは文字のストリームを出力する。テーブルの行と列の構造は保持されない。3列の請求書明細テーブルは、手動での再構築が必要な、入り混じったテキストの塊になる」とのことです。
PubTabNetベンチマーク(科学出版物の56万8千枚のテーブル画像データセット)において、NVIDIAのNemotron Parseビジョンモデルは、テーブル内容再構築でTEDS(木編集距離ベース類似度)スコア81.37、構造的正確性で93.99を達成しました。テーブル検出を別の後処理ステップとして実行する従来のOCRツールは、同じベンチマークで一貫して60未満のスコアです。その差は構造的なものです。ビジョンモデルはグリッドをシーンの一部として認識しますが、OCRパイプラインは断片的な線分からそれを再構築する必要があります。
Azureの次世代テーブル認識機能(TSR-v2)は有用な指標を提供します。専用のコンピュータビジョンテーブル検出システムでさえ、2026年のアップデートでラテン文字全体のF1スコアを約90%から約95%に改善しました。同チームのブログ記事では、「データの位置合わせに精度を要するタスクでは、従来のコンピュータビジョン技術が生成AIよりも優れた性能を発揮する」と述べられており、これは技術の現状に対する正直な評価です。ただし、この比較は、テーブル出力を求められた汎用LLMに対するものであり、文書用に特別に訓練されたビジョン言語モデルに対するものではありません。
ビジョンAIの強み。 VLMはテーブル全体を1つの視覚オブジェクトとして認識します。グリッド線、太字の列ヘッダー、交互の行の網掛け、中央揃えテキストの結合セル、異なる背景の小計行を認識します。行4、列3に数量「12」が含まれているのは、「Qty」ヘッダーの下にあるそのセルの空間的位置と、その列内での左揃えによって割り当てが明確になるからです。これは、アルゴリズムがポリゴン交差を計算して推測した結果ではありません。
複雑なテーブルを含むスキャン文書では、この違いが決定的です。8列、2行にまたがる結合ヘッダーセル、バックオーダー品目の条件付き書式、テーブル下の脚注がある発注書の場合、OCRアプローチではゼロからの再構築が必要な出力になります。一方、VLMは行と列の関係が保持された構造化表現を生成します。変換後のWord文書でテーブルをそのまま維持する必要がある場合は、テーブルをそのまま維持するためのステップバイステップガイドで実践的なワークフローを説明しています。
3. 画像とテキストの分離
OCRの仕組み。 従来のOCRエンジンは基本的にテキスト指向です。グラフ、ロゴ、写真、署名などの画像領域に遭遇すると、テキストとして「読み取り」(意味不明な文字を生成)、または認識不能領域としてマークしてスキップする、という2つの選択肢しかありません。どちらも出力文書に画像を保持しません。四半期ごとの収益動向を説明するグラフ、レターヘッドの会社ロゴ、契約書のスキャン署名は、空白やエラー文字になります。
一部の高度なOCRシステムは、非テキスト領域を識別して埋め込み画像として保存する、別の画像検出モジュールを追加します。しかし、この検出は「認識されたテキストがない領域=画像」というネガティブスペースに基づいているため、テキストが画像に重なる場合(透かし、ラベル付き図、注釈付き写真)には失敗します。また、インラインに残すべき装飾画像と、キャプションとともにフロートさせるべきデータグラフを区別することもできません。
ビジョンAIの仕組み。 VLMはページを全体的に解析します。写真領域、ベクターグラフィック、グラフ、ロゴ、手書き注釈を、「テキストの不在」としてではなく、個別のビジュアル要素タイプとして識別します。Towards AIの研究チームは、VLMベースの文書パイプライン構築の経験を文書化しており、文書領域(テキスト、表、図、ダイアグラム)を分類するビジョン検出モデルのトレーニングにより、領域タイプの精度が72%から91%に向上し、最大の改善はハードネガティブ例(視覚的にダイアグラムに似ているがそうではない、密集した表や特定の図の配置)を追加することで得られたと報告しています。
実際の成果:会社のレターヘッドロゴと下部に手書き署名があるスキャン契約書。OCRでは、ロゴが壊れた画像プレースホルダーになり、署名は誤認識された文字の汚れになります。VLMはロゴを画像として保持し、署名を署名として認識し(書き起こすテキストではなく)、両方を文書フロー内の正しい位置に配置します。
4. 段落階層の再構築
OCRの仕組み。 OCRエンジンはフォントサイズと太さを検出できます。14ポイントの太字行の後に11ポイントの標準テキストが続く、といった具合です。これに基づき、「大きいフォント+太字=見出しの可能性が高い」というヒューリスティックを適用します。しかし、フォントサイズのヒューリスティックは脆弱です。財務諸表における12ポイントの太字行は、セクション見出し、表の列ラベル、または強調のために書式設定された合計金額である可能性があります。OCRエンジンは、テキストの内容や文書構造における役割を理解しないため、これらを区別する方法がありません。
ICLR 2025におけるグラフベースの文書構造分析に関する研究は、OCRができないことを形式化しています。それは、セクション見出しが親ノード、本文段落が子ノード、サブセクションが親セクションの下にネストされ、キャプションが関連する図にリンクする階層ツリーを構築することです。この種の関係予測(「このテキストブロックはその画像のキャプションである」や「この見出しは続く3つの段落を導入する」)には、フォントメトリクスを測定するだけでなく、内容の理解が必要です。
ビジョンAIの仕組み。 VLMはテキストを視覚的にだけでなく、意味的に読み取ります。「3.2 収益認識方針」と太字で書かれた行を見たとき、フォントサイズに注目するだけでなく、この行が財務文書のサブセクションを導入していること、続く段落がこのトピックを詳しく説明していること、同じレベルの次の見出し(「3.3 費用分類」)が新しいサブセクションを開始することを理解します。生成されたWord文書はこれを反映します。つまり、直接的な書式設定ではなく、適切な見出しスタイル(見出し1、見出し2、標準)、ナビゲート可能なアウトライン構造、セクションを折りたたんだり展開したりする機能です。
これこそが、VLMの優位性が正確性のパーセンテージよりも、出力のユーザビリティに最も関わる側面です。OCRで変換された文書は正しい文字を持っているかもしれませんが、書式はフラットです。すべての段落が同じように見えるため、ユーザーは手動で見出しスタイルを再適用し、目次を再構築し、文書を再構成してからでないと編集できません。VLMで変換された文書は階層を保持しているため、すぐに作業可能です。AIモデルがこの構造を解析する根本的なメカニズムについては、AIが文書を読み取る仕組みの解説で技術的な詳細をさらに掘り下げています。
ファイルは安全に処理され、保存されることはありません。
実際の意味
上記の4つの次元は学術的な抽象概念ではありません。ユーザーがドキュメントをWordに変換し、出力を修正するのに時間を費やすときに実際に体験することに直接対応しています。
Redditのr/techsupportで、stanstrというユーザーが、ほとんどの技術文書よりも優れた形で根本原因を説明しています:「PDF形式は表示用に設計され、Wordは作成用に設計されています。PDFは基本的にデジタル『印刷物』です。文字、線、ロゴなど、すべての要素を2D平面上の固定座標を持つオブジェクトとして扱います。段落が何かを『認識』せず、単に文字『H』が特定の場所にあることだけを知っています。」 これはまさに、同じ座標ベースのプリミティブで動作する従来のOCRパイプラインが、PDFの構造的盲目性を継承する理由です。
r/TechnologyProTipsでは、別のユーザーが普遍的なフラストレーションを捉えています:「同僚から何度も聞かれました。私:はい、ありますよ、Acrobat Pro。相手:それは無料じゃない。私:では、xyzオンラインPDF to Docを試してみて。相手:でも、いつも上手くいかないし、フォーマットが崩れるとか色々。」 このやり取りは9年前のものですが、根底にある問題は変わっていません。なぜなら、根底にある技術(座標ベースのテキスト抽出とヒューリスティックな再構築の組み合わせ)が変わっていないからです。
VLMで変わるのは、ドキュメントが座標から再構築されるのではなく、構成として理解されることです。その違いは、「スキャン文書がある」から「実際に使える編集可能なWordファイルがある」までの総時間に最も顕著に現れます。従来のOCRパイプラインは、手動でのクリーンアップ(表の再フォーマット、見出しスタイルの再適用、ロゴの再埋め込み、読み順の修正)が必要な出力を生成します。ユーザーは、ドキュメント1件につき15~30分をこれらの修正に費やしていると報告しています。VLMは構造的に完全な出力を生成するため、再構築ではなくレビューだけで済みます。
これが精度数値の実用的な解釈です。紙面上の67%対60%の差は、実際にはドキュメント1件あたり15~30分のクリーンアップ時間の節約を意味します。OCR後のクリーンアッププロセスが実際にどのようなものか、より詳細なウォークスルーについては、OCR後に何が起こるかの内訳で完全な修正ワークフローを文書化しています。
従来のOCRが有効なケース(そうでないケース)
正直な比較では、どちらか一方の技術が常に優れているとは言えません。従来のOCRには特定のシナリオで真価を発揮する場面があり、その境界を理解することは、ビジョンAIの得意分野を理解することと同じくらい重要です。
OCRが適しているケース:
- 同一フォーマットの文書を大量に処理する場合。 毎月1万件のW-9フォームを同じテンプレートから受け取るなら、テンプレートベースのOCRパイプラインとゾーン抽出の方が、すべての文書をVLMにかけるより高速で、1ページあたりのコストも低くなります。入力が一貫しているため、再構築の問題が発生しません。
- 編集可能な書式ではなく、検索可能なテキストのみが必要な場合。 目的が、文書管理システムでスキャンPDFをテキスト検索可能にすること(編集可能なWordファイルを作成することではない)であれば、OCRの出力で十分です。
- 文書がクリーンでデジタル作成されたPDFであり、テキストが埋め込まれている場合。 Wordから書き出されたPDFには、すでにテキストがデータとして含まれています。OCRで「抽出」する必要はなく、埋め込みテキストストリームを読み取る直接パーサーの方が高速で、モデルのオーバーヘッドなしに完全な精度を発揮します。
- 予算が絶対的な制約であり、1文書あたりのコストを最小限に抑える必要がある場合。 Tesseractは無料のオープンソースです。10万ページをVLMで処理するには、実際に計算コストがかかります。クリーンな文書からの純粋なテキスト抽出では、ビジョンモデルの追加コストに見合わない可能性があります。
ビジョンAIが明らかに適しているケース:
- レイアウトの保持が重要な場合。 出力がオリジナルと同じ見た目である必要がある場合(表の位置、見出しのスタイル、画像の配置など)、VLMは贅沢品ではありません。手動で再構築せずにこの結果を実現できる唯一のアプローチです。
- 文書のフォーマットが多様で予測できない場合。 200の異なる取引先から、それぞれ異なるレイアウトの請求書を受け取る場合、従来のOCRパイプラインのテンプレート保守コストは、VLMの1ページあたりのコストを上回ります。テンプレート不要とは、抽出ルールの構築と保守をやめることを意味します。
- 文書がスキャンや写真であり、デジタルオリジナルではない場合。 スキャン文書には埋め込みテキストがなく、OCRは必須です。独立したベンチマークによると、VLMベースのOCRはスキャン入力において、従来のOCRを一貫して10~15ポイント上回ります。
- 出力がテキスト検索可能であるだけでなく、構造的に編集可能である必要がある場合。 変換後のファイルをWordで開き、セクションの追加、表の再フォーマット、図の更新など実質的な編集を行う必要がある場合、フラットなテキストダンプとアドホックな直接書式設定ではなく、適切な構造を持つ文書が必要です。
実際には、多くの組織はハイブリッドアプローチを採用しています。大量の均一な文書ストリームには従来のOCRを、多様でレイアウトに敏感な文書やスキャン文書にはビジョンAIを使用します。この判断はイデオロギー的なものではなく、経済的なものです。各カテゴリで現在最高の結果をもたらすツールの詳細な市場概要については、2026年版PDFからWordへの変換ツール比較をご覧ください。また、レイアウトを保持した文書からWordへの変換にエンドツーエンドで何が必要かについては、レイアウト保持型文書からWordへの変換ガイドをご参照ください。
よくある質問
ビジョンAIはマルチカラムレイアウトやサイドバーを処理できますか?
はい。VLMはページをシーンとして処理し、本文、サイドバー、コールアウトボックスなど、それぞれを独立した視覚領域として識別することで、異なる読み取りフローを区別できます。従来のOCRはテキストを空間的な近接性でグループ化するため、隣接するカラムを単一のテキストストリームに統合してしまうことがよくあります。これは変換ドキュメントで「テキストの順序が乱れる」最も一般的な原因の一つです。
変換中に画像、グラフ、ロゴはどうなりますか?
従来のOCRでは、画像は通常スキップされるか(出力に空白が生じる)、読めない文字列としてレンダリングされます。ビジョンAIでは、モデルが画像領域を識別し、Word出力に埋め込み画像として保持し、正しいドキュメント位置に配置します。グラフ、ロゴ、写真、署名はすべて変換プロセスで保持されます。
ビジョンAIは従来のOCRより遅い、または高コストですか?
1ページあたりでは、はい — ページ全体をビジョン言語モデルで処理するのは、軽量なOCRエンジンで処理するよりも多くの計算リソースを消費します。Poorna ReddyがLinkedInで共有したコスト比較によると、ビジョンのみのパイプラインで1,000ドキュメントを処理するコストは約10〜40ドルであるのに対し、OCRとLLMのハイブリッドでは1〜3ドルです。ただし、ドキュメントあたりのコスト差は、壊れたフォーマットを手動で修正する時間の節約と比較検討する必要があります。レイアウト保存が重要なドキュメントでは、修正時間の短縮が通常、処理コストの増加を上回ります。
手書き文書でも機能しますか?
従来のOCRの手書きテキストに対する精度は、ほとんどのスタイルで70%を下回り、筆記体や自由形式の注釈ではほぼ読めません。ビジョンAIは手書きを大幅に改善して処理しますが、精度は手書きの品質によって異なります。高度に装飾された、または密度の高い筆記体では、ある程度の誤差が予想されます。モデルは周囲のコンテキストを使用して曖昧な文字を解決しますが、これは従来のOCRではできません。
「表へ」モードと「Wordへ」モードの違いは?
「表へ」モードは、文書から構造化データを抽出してスプレッドシートの行に変換します。文書の見た目ではなく情報が必要な場合に便利です。「Wordへ」モードは、元のレイアウトを保持したまま文書全体を編集可能なWordファイルに変換します。文書自体を編集したい場合に便利です。この記事の4つの比較軸は、主にレイアウトの忠実性を重視する「Wordへ」モードに適用されます。
結論
従来のOCRは文字を読み取ります。Vision AIは文書を読み取ります。この違いが重要となる4つの要素(テキストブロック、表、画像、階層構造)は、特殊なケースではありません。これらは、1段落以上のほぼすべての文書に存在する、中核的な構造要素です。
判断基準は明確です。文書がクリーンでデジタルネイティブ、1カラムであり、テキストのみ(書式は不要)であれば、従来のOCRで十分です。文書に表、画像、マルチカラムレイアウト、さまざまな書式が含まれ、元の見た目を保った編集可能なWordファイルが必要な場合、ビジョン言語モデルは従来のOCRと競合するものではなく、まったく異なる問題を解決しています。
実際にご自身の文書でお試しください。OCRが長年かけて破壊してきたレイアウトが、ついにそのまま保持されるのをご確認いただけます。