AIは画像から表を抽出できる?できる — その精度と実力

はい。AIは罫線あり・なしの画像から、行・列・見出し・セル値を含む表データを抽出できます。罫線ありの表では構造認識がほぼ完璧で、95%を超えることが多いです。列間隔が明確な罫線なしの表は85~95%と良好です。セル結合や階層見出しがある密度の高い罫線なしの表は最も難しく、通常60~85%で、手作業による修正がいくらか必要です。この差はAIが表を「理解」できるかどうかではなく、画像の表に内在する曖昧さに起因します。視覚的な境界がない場合、人間でもどのセルに値が属するかを推測しなければならないからです。

手入力をやめよう — AIに読み取らせるだけ
画像やPDFをアップロード — 10秒で構造化データに
今すぐ試す
登録不要 · カード不要 · 10秒で結果
画像から表を抽出するAIが、表形式データを構造化されたスプレッドシートに変換している様子

重要なポイント

  1. AIの表抽出精度は、罫線あり表の96%から、セル結合表では60%に急落する。その原因はモデルにあるのではなく、入力画像自体がすでに階層構造を失っていることにある。
  2. 3行にまたがるセル結合は「このカテゴリが次の3項目をカバーする」ことを意味する。人間には明らかでも、フラットな画像を処理するAIにとっては、データ内にツリー構造が存在しないため、推論問題となる。
  3. 出力列(品目説明、数量、単価など)を明示的に定義すれば、AIは表のグリッドを再構築するのではなく、意味に基づいて値を特定するため、セル結合の曖昧さを完全に回避できる。

テーブルタイプ別の精度

「AIは画像から表を抽出できるのか」という問いに単一の答えはありません。それはAIの一般的な能力ではなく、画像内のテーブルに完全に依存します。数十年にわたるコンピュータビジョン研究は、TableBankベンチマーク(417,234件のラベル付きテーブル)とPubTabNet(568,000件以上のテーブル画像)で頂点に達し、何が機能し何が機能しないかを明確に示しています。以下がその内訳です。

テーブルタイプ構造精度 (S-TEDS)内容+構造 (TEDS)成功/失敗の要因
罫線ありテーブル96–98%90–95%グリッド線が明確なセル境界を提供。ビジョンAIは線を区切りとして検出し、列検出はほぼ完璧。
罫線なし、明確な間隔88–95%85–93%列間の空白が広く一貫している場合に十分。AIは配置パターンから列境界を推測。
罫線なし、密集レイアウト70–85%65–80%列間の狭いギャップが境界を曖昧に。「2,400,000」と「12.5%」のような値が隣接し間隔が狭いと、約3分の1の確率で1つのセルに統合される。
セル結合あり60–80%55–75%行/列の結合がグリッド前提を崩す。AIは結合セルがどの行にまたがるかを推測する必要がある。人間には簡単でも、アルゴリズムには構造的に曖昧。
手書きテーブル50–70%40–65%二重の課題:手書き認識と不規則な配置からのテーブル構造推測。人間のデータ入力オペレーターでも速度が大幅に低下する。

これらの数値は、学術ベンチマークで使用されるTEDSメトリック(ツリー編集距離ベースの類似度)に基づいています。S-TEDSは構造の忠実度(正しい行数と列数、正しいセル結合)を測定します。TEDSは内容の正確性(各セル内の値が正しいか)を追加します。PubTabNetにおけるビジョン言語モデルの2025年ベンチマークでは、汎用VLMが生抽出で74~85%のTEDSを達成する一方、前処理パイプラインを備えた専用テーブルモデルは93%以上の範囲に達することがわかりました(NGTRフレームワーク、IJCAI 2025)

実用的な意味:清潔な罫線付き請求書テーブルや構造化レポートからデータを抽出する場合、AIは成熟しており実運用可能です。スキャンされた契約書の付録に、密集した罫線なしの価格表と結合されたカテゴリヘッダーがある場合、手動検証に時間をかけることを想定してください。AI文書抽出が全文書タイプで何ができて何ができないかについては、AI文書抽出の実際のガイドをご覧ください。

AIが得意なこと

最新のビジョンAIが本番環境で安定した成果を出す、3つのテーブルシナリオ:

あらゆるソースの罫線付きテーブル。PDFの請求書、会計ポータルのスクリーンショット、印刷された発注書の写真など、テーブルに可視のグリッド線があれば、AIはセルの境界をほぼ完璧に検出します。理由は単純で、水平線と垂直線が明確なグラフを形成し、AIモデルがスプレッドシートのグリッドを解析するのと同様に、決定論的に解析できるからです。Camelotのような従来のOCRツールも罫線がしっかりしたテーブルでは90%以上の精度を達成しますが、AIは曲線や歪んだ罫線も処理できる点で優れています。

整然と配置された罫線なしテーブル。SaaSプラットフォーム、専門サービス企業、デザイン重視のベンダーからの最新の請求書では、グリッド線を使わず、列間に十分な余白を設けたホワイトスペースベースのテーブルレイアウトがよく使われます。これらのテーブルは、人間が配置だけで読めるように設計されており、数百万のテーブル画像で訓練されたAIモデルも同じ視覚的手がかりを学習しています。列間のギャップが一貫しており、セル内の単語間のギャップよりも広い場合、AIは90%以上の確率で正しく境界を識別します。

一貫した構造の複数ページテーブル。銀行取引明細書、財務報告書、公共料金請求書などでよく見られる、すべてのページで同じ列レイアウトを持つテーブルが複数ページにまたがる場合、AIは各ページを個別に処理し、結果を1つの連続したスプレッドシートに統合できます。ここで、最新の抽出ツールのバッチファースト設計が重要になります。すべてのページを一度にアップロードすると、手動で結合が必要なN個の個別抽出結果ではなく、1つの統合された出力テーブルが得られます。

苦手な領域

失敗モードを具体的に示すことは、すべてに99%の精度を主張するよりも信頼を築きます。以下は、AIによるテーブル抽出に依然として人間の監視が必要なシナリオです。

方向性を持つセル結合。列ヘッダーで3行にまたがるセルは、「これが次の3行の親カテゴリである」ことを意味します。人間には明白ですが、AIにとっては構造的な推論問題、つまりフラットなグリッドからツリーを再構築する問題です。結合セルが4行以上にまたがる場合、または行ヘッダーと列ヘッダーの両方に同時に結合セルが現れる場合、精度は急激に低下します。2024年のPDF解析ツールの比較研究では、非標準的なレイアウトや複雑なセル結合を含むドキュメントで、パーサーの精度が最も低下することが判明しました

これはAIの知能の失敗ではなく、入力形式の失敗です。結合セルを含むテーブル画像は、元のソース(rowspan属性を持つHTML、または結合領域を持つスプレッドシート)に存在する階層構造を失っています。AIは、テーブルがフラットな画像としてレンダリングされたときに削除された情報を再構築するよう求められているのです。これは認識問題ではなく、推論問題です。

階層ヘッダー。列ヘッダーに親子関係(例:「2025年第1四半期」が「1月」「2月」「3月」にまたがる)があり、行ヘッダーにも親グループがあるテーブルは、2次元の階層を形成します。ほとんどのAIモデルはフラットなテーブル(1つのヘッダー行、その後にデータ行)を出力します。明示的に指示しない限り、階層関係をネイティブに保持しません。その結果、元の作成者が意図した多層構造を失った、技術的には正しいフラットなテーブルになることがよくあります。当社のカスタム列抽出アプローチは、AIに画像から推論させるのではなく、出力スキーマを事前に定義できるようにすることで、この問題を回避します。

可変幅セルを持つ、境界線のない高密度グリッド。 テーブルに境界線がなく、列間の隙間が狭く、セル内のテキスト量が異なる(短い値と長い説明文が混在)場合、余白の境界が曖昧になります。「請求書 #2405-001」を含むセルの隣に「事務用品 — ステーショナリー(大口注文)」を含むセルがあると、AIが余白の閾値を誤判定し、3つの別々の列として解釈される可能性があります。

手書きのテーブル。 手書き文字自体が読みやすい場合でも(視覚AIは85~95%の精度で処理します。詳細はAI手書き文字認識ガイドをご参照ください)、構造上の問題が複合的に発生します。手書きテーブルは列の配置が不規則で、値が左右にずれたり、行の高さが不均一だったり、線がまっすぐでないことがほとんどです。AIは、テキスト認識と不規則なグリッドからの構造推論という、2つの困難な問題を同時に解決する必要があります。

従来の手法との比較

視覚AI以前は、画像からテーブルを抽出するには、複数の脆弱なツールを組み合わせる必要がありました。従来のアプローチを理解することで、AIによるテーブル抽出機能が真の変革である理由がわかります。

手法仕組み境界線ありテーブルの精度境界線なしテーブルの精度セル結合
Camelot(ラティスモード)PDF/画像内の視覚的な線を検出し、セルの交点を計算全体で約68%(文書タイプ別完全に失敗 — ラティスモードは可視の境界線が必要失敗 — 線検出がないためグリッドを認識不可
TabulaPDFからテキスト位置を抽出し、空間的な近接性でグループ化全体で約73%50~70% — ストリームモードは余白から列境界を推測結合セルの値を任意の隣接セルにコピーし、意味を喪失
pdfplumber文字レベルのテキスト抽出と明示的な余白分析全体で約72%55~75% — Tabulaより設定可能だが、基本的なアプローチは同じセル結合の処理なし。フラットなセルを出力
視覚AI / VLMテーブルを視覚的なシーンとして読み取り、構造、テキスト、関係性を同時に理解90~98%85~95%(疎) / 65~80%(密)60~80% — 文脈からスパンを推測するが、完全ではない

従来のアプローチには、テキスト認識と構造認識を分離するという根本的なアーキテクチャ上の問題があります。まずOCRがテキストとその位置を抽出します。次に、別のアルゴリズム(多くの場合、手動調整されたヒューリスティック)が、それらの位置からテーブルグリッドの再構築を試みます。OCRが文字を誤読したり(低解像度画像でよく発生)、単語の位置を誤ったり(傾いた文書でよく発生)すると、構造推論は後続処理で失敗し、回復する方法がありません。エラーが連鎖するのです。

Vision AIはこの問題を完全に回避します。テーブル画像を視覚的なシーンとして読み取る——人間と同じように——「合計」ヘッダー下の数値が、ピクセル座標Xにあるからではなく、「合計」列の他のすべての要素と意味的に整合するから、その列に属すると理解します。これは単なるOCRの改善ではなく、問題に対する根本的に異なるアプローチであり、AIと従来のOCRの比較で詳しく解説しています。

最良の結果を得る方法

使用するツールに関わらず、AIによるテーブル抽出の精度を一貫して向上させる5つの実践方法:

1. 可能な限り高解像度の画像を使用する。 AIモデルは画像をピクセルのグリッドとして認識します——ピクセル数が多いほど、隣接するセルを細かく区別できます。PubTabNetベンチマークにおけるビジョンLLMの2025年の分析では、画像のアップスケーリングが最も一般的な前処理の改善点であり、低品質入力での成功した抽出の64%で使用されていました。印刷されたテーブルを撮影する場合は、スマートフォンカメラが対応する最高解像度を使用し、遠近歪みを避けるためにカメラを文書と平行に保ってください。

2. テーブル領域にトリミングする。 Vision AIは、テーブルがフレームの大部分を占めている場合に最も効果的に機能します。テーブル周辺の余分なコンテンツ——周囲のテキスト、ロゴ、ページヘッダー——はノイズとなり、列の検出を妨げる可能性があります。抽出前に画像をテーブル領域のみにトリミングしてください。

3. 出力列を明示的に定義する。 最も信頼性の高いアプローチは、AIに「すべて抽出」と依頼することではなく、何を抽出するかを指示することです。「品目説明」「数量」「単価」「行合計」などの列名を指定すると、AIはどのフィールドを探すべきか、出力のどこに属するかを正確に把握します。これがカスタム列抽出の原理です。AIはテーブル構造を推測するのではなく、ドキュメントの内容を理解してデータをスキーマに一致させます。この仕組みの詳細については、スキーマ駆動型抽出と全テーブル解析の違いをご覧ください。

4. 枠線のないテーブルには、コントラスト強調の前処理を行う。 テーブルに可視の枠線がなく、列間隔が狭い場合、画像のコントラストを高めることでAIが列の境界を区別しやすくなります。画像編集ソフトでの簡単なレベル調整——テキストを暗くし、背景を明るくする——だけでも、空白領域の検出が向上します。

5. セル結合の出力を確認する。 これは絶対に省略してはいけないステップです。テーブルに結合セルがある場合、抽出されたスプレッドシートで値が欠落していたり、誤って繰り返されている行がないか確認してください。結合セルに対するAIの構造推論は、時間を大幅に節約できるほど優れています——80%のケースで正しく処理します——しかし、残りの20%は、チェックしないままにすると後続の分析に連鎖的なエラーを引き起こす可能性があります。AI抽出は、60秒の人間による確認が必要な初稿として扱い、監視不要のブラックボックスとして扱わないでください。

実際の例:期待できること

例1:明瞭な罫線のある明細表が印刷された注文書。サプライヤーからの注文書を撮影します。表には明確な罫線、標準的な列(品目、説明、数量、単価、合計)があり、セルの結合はありません。AIはほぼ完全な精度で抽出します — すべての行、すべてのセル値が正しく整列されます。修正作業はゼロです。これこそ、AIによる表抽出が手動データ入力よりも真に高速かつ正確である領域です。

例2:罫線のない取引明細表がある銀行取引明細書のPDF。銀行取引明細書は通常、空白ベースの表レイアウトを使用します。日付、説明、借方、貸方、残高の各列が一定の間隔で区切られています。AIはこれを適切に処理し、構造と内容の精度は90~95%です。最も一般的なエラーは、長い取引説明文が隣の借方/貸方の列にはみ出してしまうことです。出力をざっと確認すれば、1分以内にこれらのエラーを見つけられます。

例3:スキャンされた契約書の付属書にある、情報が密集した価格表。これが最も難しいケースです。罫線なし、列間隔が狭い、複数のサブ列にまたがる結合されたカテゴリヘッダー、さまざまな長さのデータ値。構造の精度は65~80%と予想されます。AIはほとんどのデータポイントを正しく取得しますが、結合されたカテゴリヘッダーとそのサブ列の関係を誤ることがあります。20行の表の場合、5~10分の手動修正を見込んでください。

よくある質問

スマートフォンで撮影した写真からAIは表を抽出できますか?

はい、写真が鮮明で明るく、真正面から(斜めではなく)撮影されていれば、驚くほど良好な結果が得られることがよくあります。スマートフォン写真での主な失敗要因は遠近歪みです。斜めから撮影された表は線が傾き、従来のOCRとAIの構造認識の両方を混乱させます。カメラを書類面と平行に保てば、フラットベッドスキャナと同等の結果が得られます。撮影されることの多い書類タイプについては、スクリーンショットや写真からのデータ抽出ガイドをご覧ください。

AIはPDFと画像のどちらでより効果的に機能しますか?

PDFの種類によります。テキストネイティブPDF(テキストを選択してコピーできるもの)には、AIが追加のシグナルとして使用できる配置データが含まれており、純粋な画像と比較して精度が5~10%向上することがよくあります。スキャンされた画像のみのPDFは画像と同等です。AIは両方を処理できますが、選択できるのであれば、スクリーンショットではなく元のテキストネイティブPDFを提供してください。

AIはセル内の複数行テキストを含む表を処理できますか?

はい、これは実際にAIが従来の方法よりも大幅に優れている領域です。セルに段落テキストが含まれている場合(契約書の別紙、仕様書、臨床レポートでよく見られます)、従来のOCRはセル内の改行を行区切りと誤認するため、行の境界を見失います。Vision AIはセルを1つのエンティティとして読み取り、その中のテキストを保持し、「Scope of Work: The contractor shall...」内の改行が新しい行の開始を意味しないことを理解します。

AIは異なる通貨や数値形式の表をどのように処理しますか?

AIは数値を文脈で読み取ります。「1.500,00」をヨーロッパ形式の数値(1,500.00)、「$1,500.00」を米国形式として、同じ表に両方があっても認識します。これは、ビジョンAIが数値文字列のパターンマッチングに依存せず、ドキュメントの言語、周囲の列の文脈、値の意味を理解するためです。異なる形式が混在する表(例:通貨形式が混在する商業送り状)も、ほとんどの場合正しく処理されます。

AIは複数ページにまたがる表を抽出できますか?

はい。最新のビジョンAIは、表が次のページに続いていることを検出し、結果を1つのスプレッドシートに統合できます。2025年にPubTables-v2データセットを用いた研究では、ページをまたぐ表の継続識別において99.5%の再現率を達成しました。実用的な条件として、AIが連続性を認識できるよう、すべてのページをまとめてアップロードする必要があります。ページを1枚ずつ処理すると、ページ間の文脈が失われます。

事前にAIに自分の表形式を学習させる必要はありますか?

いいえ。これは、DocparserやParseurのようなテンプレートベースのOCRツールから引き継がれたよくある誤解です。それらのツールでは、新しいドキュメントレイアウトごとに解析ゾーンやルールを定義する必要があります。ビジョンAIは意味理解を使用し、人間と同じように表を読み取るため、特定の形式に事前に触れる必要はありません。トレードオフとして、テンプレートベースのツールは明示的に学習した形式では高い精度を達成できますが、形式が変わると機能しなくなります。AIは形式の変化に自動的に対応しますが、単一の固定形式に対するピーク精度は低くなります。このトレードオフの詳細については、従来のOCRとAI抽出の比較をご覧ください。

表にテキストとチェックボックスや記号が混在している場合はどうなりますか?

ビジョンAIはチェックボックスや記号を文脈に応じて読み取ります。「速達配送」の横にあるチェックボックスがオンになっていれば、孤立した記号としてではなく「配送方法=速達」として理解します。これは、AIがチェックボックスとラベルテキストを1つの意味単位として捉え、ページ上の他のキーと値のペアを処理するのと同様の方法で機能するためです。チェックボックスデータの精度は一般的に85~95%で、罫線のある表の印刷テキストと同等です。

結論:AIは現在、罫線があり適切にスペースが設定された表に対応可能です。難しいケースでも、大部分が正しい抽出結果を編集する方が、ゼロから入力するよりはるかに速いため、大幅な時間節約になります。また、ビジョンモデルが改善されるにつれて、「難しい」ケースは年々減少しています。データもこれを裏付けており、PubTabNetのS-TEDSスコアは2020年の約65%から2025年には約93%以上に上昇し、その傾向はまだ鈍化していません。

実際のドキュメントにおけるAI抽出と手動データ入力を比較した実践的な分析については、AIと手動転記の時間と精度の比較をご覧ください。または、2026年における最高の表抽出ツールのまとめを参照し、ワークフローに重要な指標で各ツールを比較してください。

📮 contact email: [email protected]