税務書類データ抽出

VAT申告書をExcelに変換 — さらにボックス間の計算整合性を提出前にチェック

税務申告書は、項目同士が相互参照する唯一の書類です（例：Box 3 = Box 1 − Box 2、セクションC合計 = 行1～8の合計）。従来のOCRは各ボックスの数値を個別に抽出するだけで、抽出されたBox 3が実際にBox 1 − Box 2と一致するかは検証しません。Computed Columnsは各ボックスを独立して抽出した上で、計算の整合性を検証します。不一致があれば、データが会計システムに入る前に警告を発します。これは、OCRの誤読によるBox 1 − Box 2の差額を生むようなタイプミスに対する最後の防御線です。

暗号化処理 · 変換後自動データ削除

PDF・スキャン

計算チェック

XLSX/CSV

VAT申告書から抽出できるデータ

必要な列名を入力するだけで、AIが各税務書類のボックスラベルの意味を理解し、HMRC VAT100のBox 1～Box 9のような番号形式でも、EU申告書のようなまったく異なるボックスレイアウトでも、該当する値を自動で見つけ出します。テンプレート設定不要で、税務期間、登録番号、全ボックス値、補足合計をあらゆる税務当局の書類から読み取ります。

VAT期間開始

VAT期間終了

VAT登録番号

ボックス1（仮受消費税）

ボックス2（仮払消費税）

ボックス3（差引税額）

ボックス4（課税売上高）

ボックス5（課税仕入高）

売上合計

仕入合計

申告日

申告方法

このツールはカスタム列抽出を使用します。「Box 1（出力VAT）」「Box 2（入力VAT）」「VAT登録番号」など、必要な列名を入力するだけで、AIが各フォームのボックスラベルの意味を理解し、固定テンプレートや座標に依存せずに該当する値を特定します。そのため、1組の列名で、HMRC VAT100、ドイツのUmsatzsteuervoranmeldung、フランスのCA3、オランダのBTW aangifteといった、ボックス番号やレイアウトが異なるフォームにも同時に対応できます。また、計算列も定義可能です。たとえば「正味VAT検証（Box 1 − Box 2）」という列を作成すれば、AIが抽出されたBox 3がBox 1からBox 2を引いた値と一致するかを計算し、差異がある行にフラグを立てます。この相互検証は抽出中に行われるため、スプレッドシートには差異がすでに強調表示された状態で届き、後から照合して発見する必要はありません。

税務申告書の構造には算術が組み込まれている — 従来のOCRはそれを無視する

請求書や領収書には単独の値が含まれている — 請求書の合計は、ページ上の他の値と一致する必要はない。税務申告書は異なる。ボックス3はボックス1からボックス2を引いたものとして定義されている。セクションCの合計は、1行目から8行目の合計である。これらの算術関係はフォーマットではなく、申告書の法的定義の一部である。従来のOCRは各ボックスを個別に読み取り、数値が合計されるかどうかをチェックすることはない。Redditの会計士が、レビュー中に転記ミスを発見したと述べているが、ソフトウェアが算術を検証していれば発見できたはずだが、そうではなかったため、そのエラーはクライアントの申告書にまで及んだ。

従来のOCRは各ボックスを独立して読み取ります。Box 1、Box 2、Box 3は単なるページ上の3つの数字です。 項目間の検証はありません。OCRがBox 1を£45,230ではなく£45,280と誤認識すると、そのまま£45,280がスプレッドシートに入力されます。Box 3も抽出されますが、システムは「抽出されたBox 3は本当にBox 1からBox 2を引いた値と等しいか？」と問いかける手段を持ちません。£50の誤差は静かに会計システムに紛れ込み、監査やHMRCの記録との不一致が発覚するまで誰も気づきません。規模が大きくなると、四半期に30件のクライアント申告を処理する会計士は、データ入力に加えて、フォームごとに20以上の算術関係を手動で検証する必要があり、合計600回ものチェックが発生します。

1桁の誤認識が、会計システムに連鎖的な下流エラーを引き起こします。 Box 1が£50分、誤って入力されます。会計ソフトは抽出とインポートの間に検証ステップがないため、その値を受け入れます。元帳上の四半期VAT負債は、申告内容と一致しなくなります。調整を行う頃には（多くの場合、HMRCから明細が届いたり、自社で四半期レビューを実施する数週間後）、不一致の原因を突き止めるために複数のシステムを遡ることになります。エラーを見つけるコストがエラー自体のコストを上回り、申告期限まで刻々と時間が迫っています。

複数ボックス間の依存関係が問題を複雑化します。そして、ほとんどの申告書にはそのような関係が多数存在します。 Box 3 = Box 1 − Box 2 だけではありません。Box 5（純VAT）は要約セクションと詳細セクションで一致する必要があります。総産出額は個々の産出ラインの合計と等しくなければなりません。セクションの合計はその行の合計と等しくなければなりません。HMRC VAT100のようなフォームには、相互に関連する9つのボックスがあります。完全なドイツのUmsatzsteuervoranmeldungには、複雑に連動する算術制約を持つ60以上のフィールドがあります。すべてのクライアント申告、すべての申告期間において、これらすべてを手動でクロスチェックすることは、どのような規模でも現実的ではありません。そのため、ほとんどの企業はこれを省略し、抽出を信頼します。その信頼こそが、後日、調整問題を引き起こす原因となるのです。

カスタム列抽出で各ボックスを個別に読み取り、計算列で算術検証を行います。 ボックス1、ボックス2、印刷されたボックス3の列を定義し、「ボックス3チェック（ボックス1 − ボックス2）」という計算列を作成します。AIがフォームからボックス1とボックス2を抽出して差分を計算し、同時に抽出した印刷済みのボックス3と比較します。一致すれば計算列は「OK」を出力し、不一致（ボックス1、2、3のいずれかの誤読）があれば差異を出力します。差異がゼロでない行はすべて、データが会計システムに取り込まれる前にレビュー対象としてフラグが立てられます。

ボックス1の£50の誤読は、抽出時に差異が検出されるため会計システムに到達しません。 ボックス1が£45,280と抽出されたが実際は£45,230だった場合、計算列がボックス1 − ボックス2を計算し、印刷済みのボックス3と一致しない結果を出します。差異列に即座に不一致が表示されるため、その行をレビューして数字の誤りを発見・修正し、修正値が元帳に反映されます。エラーは抽出段階で捕捉され、数週間後の照合時ではありません。四半期あたり30件のクライアント申告書に対し、計算列がすべての算術チェックを自動実行し、フラグが立った行のみをレビューすればよく、600すべての関係を確認する必要はありません。

複数の計算列がフォーム上のすべての算術関係を同時に検証します。1回の抽出パスですべてのチェックが実行されます。 「セクションC合計チェック（1〜8行の合計と印刷済み合計の比較）」「ボックス5クロスチェック（サマリーボックス5と詳細セクションのボックス5）」「出力合計チェック（個別出力行の合計と印刷済み合計）」などの計算列を定義します。AIは継続シートを含む複数ページの申告書全体からすべてのボックス値を抽出し、同じ抽出パスですべての算術検証を実行します。ダウンロードされたExcelファイルには、すべてのデータが抽出され、すべての差異が既にフラグ付けされた状態で届きます。フラグが立った行のみをレビューし、残りは確信を持ってインポートできます。これが、転記ミスが最終的に提出まで生き残るのを防ぐ最後の防御線です。

算術検証を伴う四半期分のVAT申告書が1回のパスで抽出される仕組み

アップロード — 受け取った申告書をそのまま

Q4のHMRC VAT100 PDF（電子申告）、郵送申告する顧客からのスキャン（Box 5に折り目あり、やや傾いたもの）、継続用紙を含む複数ページのドイツ語Umsatzsteuervoranmeldung、子会社のフランス語CA3をまとめてアップロード。形式は、クリーンなデジタルPDF、アーティファクトのあるスキャン紙、ページをまたぐ合計のある複数ページ文書と様々。管轄ごとの事前仕分けや、複数ページの分割は不要。AIがすべてのフォームを一括処理。申告書と一緒に補助明細や追加申告書を受け取った場合も、同じバッチでアップロード — ツールは同一バッチ内の混合文書タイプを処理します。

列を定義 — 会計システムに必要な項目と計算検証

出力スプレッドシートの列名を入力：VAT期間開始、VAT期間終了、VAT登録番号、Box 1（売上 VAT）、Box 2（仕入 VAT）、Box 3（支払 VAT 純額）、Box 4（VAT 抜き売上）、Box 5（VAT 抜き仕入）。次に検証列を追加：Box 3 検証（Box 1 − Box 2；非ゼロの場合は差異を出力）、ページ間合計チェック（明細セクションの合計と要約合計の比較）。ドイツ語の複数ページ申告書の場合、AIはすべての継続用紙を読み取り値を集計。フランス語CA3の場合、フランス語のフィールドラベルを読み取り、英語の列名にマッピング — 同じ列定義で、国ごとのテンプレート設定は不要。折り目があるスキャン紙の場合、AIは折り目周辺を読み取り値を抽出。計算列でBox 3がBox 1 − Box 2と一致するか検証し、折り目が誤読の原因となった場合は行にフラグを立てます。

出力 — 1つのスプレッドシート、計算チェック済み、確認が必要なのはフラグが立った行のみ

各行が1件のVAT申告を表すExcelファイルをダウンロード。ボックス値はボックス番号を列データとして抽出 — Box 1、Box 2、Box 3、Box 4、Box 5、期間、登録番号。計算列は既に実行済み：印刷されたBox 3と計算値（Box 1 − Box 2）の差を示す列があります。バッチ内の4件の申告のうち、3件は不一致列に「0」が表示 — これらの行は検証済みでインポート可能です。折れ目があるスキャン申告で誤読が発生した場合、不一致列にゼロ以外の値が表示 — その行を確認し、抽出された数値を原本と比較し、数字を修正すれば、バッチ全体が監査対応可能になります。XLSX、CSV、JSONでエクスポートし、Xero、QuickBooks、Sage、または会計システムに直接インポート — 抽出境界を超えた計算エラーが存在しない確信を持って。

VAT申告書抽出が最適に機能するケース — 検証すべきポイント

VAT申告書の抽出は、構造化された政府フォームに対して非常に信頼性が高い。大量のバッチを処理する前に、いくつかの条件を理解しておく価値がある — 特にボックス値の精度に影響を与える条件は、誤読されたボックスが算術クロスチェックに影響を与えるため重要である。

確実に抽出

政府発行の標準ボックスレイアウトの税務書類 — ボックス番号をフィールドラベルとしてほぼ完全な精度で抽出。

同一レイアウトで国別のボックス番号が異なる書類 — 同じ列定義が複数の法域で有効。

デジタル提出PDF（HMRC VAT100、MTD対応申告書、EU電子申告PDF） — クリーンなソースからクリーンな抽出結果。

継続用紙付き複数ページの申告書 — 全ページを抽出。計算列で明細セクションを合計し、サマリーページと比較してページ間の合計を検証。

確認が必要なケース

印刷された税務申告書への手書き修正 — 精度は手書きの読みやすさに依存します。作成者が入力値を取り消し線で消し、小さな枠内に手書きで修正を記入した場合、AIは表示されている修正後の数値を読み取ります。これらの申告書は計算列でフラグを立て、提出前に修正値を補足スケジュールと照合してください。

修正申告書や訂正申告書で、原本と修正値の両方が同じ用紙に表示されている場合 — AIは両方の数値セットが表示されていれば抽出する可能性があります。修正値には明確な列名を定義し、両方の保持義務がある場合は元の値と相互参照してください。

英国/EU以外の非標準地域フォーム（例：特定の州レベルの売上税申告書、地方自治体の税務申告書） — ボックス番号が異なるか、数字以外のラベルを使用する場合があります。AIはラベル付きの値を抽出できますが、抽出プロンプトの列名はフォーム上の実際のラベルと一致させる必要があります。最初に1つのテストフォームを実行してフィールドマッピングを確認してください。

このツールはボックスから数値を抽出しますが、税額計算や納税義務の決定は行いません — フォームに記載されている内容を読み取るだけです。計算列は抽出された数値が内部的に一貫していることを確認しますが、税法に従ってVAT納税額を再計算するわけではありません。算術チェックはフォームが正しく読み取られたことを確認しますが、フォーム自体が正しく記入されたことを確認するものではありません。

よくある質問

計算列によるVAT申告書の算術検証はどのように機能し、なぜ重要なのですか？

税務申告書は、項目同士が定義上相互参照する唯一の文書タイプです（例：ボックス3はボックス1からボックス2を引いた値）。従来のOCRは各ボックス値を独立して抽出するため、抽出された数値がこれらの関係を満たしているかを確認する仕組みがありません。計算列はこの問題を解決します。「ボックス3チェック（ボックス1 − ボックス2）」のような列を定義すると、AIが抽出されたボックス1とボックス2から期待される純VATを計算し、同じく抽出された印刷上のボックス3と比較します。差異がある場合、その列に不一致が出力され、会計システムに取り込む前に対象行をレビュー対象としてフラグ付けします。複数の計算列を定義して、フォーム上のすべての算術関係を同時に検証できます。出力されるスプレッドシートには既に不一致が特定されているため、レビュー時間はフラグが付いた行のみに集中でき、すべての申告書のすべての算術関係を手動で確認する必要はありません。

これは英国以外の国のVAT申告書でも機能しますか？

はい、機能します。AIは複数の管轄区域の標準的なVAT/GST申告書形式を処理できます。英国HMRCのVAT100、ドイツのUmsatzsteuervoranmeldung、フランスのCA3、オランダのBTW aangifte、インドのGSTR-3Bなどに対応しています。各国でボックス番号やラベルは異なりますが、AIは固定テンプレートに一致させるのではなく、各フォームの構造を文脈に応じて読み取ります。「ボックス1（出力VAT）」「ボックス2（入力VAT）」「VAT登録番号」といった同じ列名が複数のフォームで機能するのは、AIが各ボックスラベルの意味を文脈から理解するためです。珍しいラベルを使用する地域特有のフォームについては、最初にテスト用のフォームを1つ実行し、列名がフォームの特定のラベルに正しくマッピングされることを確認することをお勧めします。計算列による算術チェックは管轄区域に関係なく機能します。ボックス3 = ボックス1 − ボックス2という計算は、どの国でも同じだからです。

複数のクライアントや税期間のVAT申告書を一括処理できますか？

はい。複数のクライアント、四半期、管轄区域のVAT申告書を1つのバッチでアップロードできます。AIが各フォームを個別に処理し、すべての結果を1つのExcelスプレッドシートにまとめます（1行が1申告書に対応）。VAT期間の開始日、終了日、登録番号も抽出されるため、クライアントや四半期ごとにフィルタリング可能です。計算列の算術チェックは各行で独立して実行されるため、バッチ内の各申告書が個別に検証されます。これは申告シーズンに複数のクライアントを管理する会計事務所に最適です。すべての申告書を一度にアップロードし、フラグが立った行のみを確認して、クライアントごとに検証済みデータをエクスポートできます。繰り返し処理には、コレクションリンク機能を使用すると、クライアントがアカウント不要で自身の申告書を処理キューにアップロードできるため、メール添付やファイル転送なしでバッチ処理の準備が整います。

スキャンした紙の申告書とデジタルPDFでは、抽出精度はどの程度違いますか？

標準的なボックスレイアウトで200dpi以上にきれいにスキャンされた紙の申告書の場合、抽出精度はデジタルPDFと同等です。精度の上限はAIの読み取り能力ではなく、スキャン品質によって決まります。平らで明るく、きれいに印刷された申告書をスキャンすれば、ボックス番号、値、補足フィールドが確実に抽出されます。傾いたスキャン、ページの折れ目や影があるスキャン、または複数世代のコピー（印刷→FAX→スキャン）では、物理的な劣化部分に近い値の精度が低下する可能性があります。ここで計算列の検証が真価を発揮します。ボックス5の折れ目が誤読を引き起こしても、算術チェックで検出されます。なぜなら、3つの値のいずれかが誤読されていれば、抽出されたボックス3はボックス1 − ボックス2と一致しないからです。郵送で届く紙の申告書については、スマートフォン撮影ではなく、フラットベッドスキャナーで200dpi以上でスキャンすることをお勧めします。これにより抽出の信頼性が最大限に高まります。

処理中の税務データは安全ですか？

すべてのファイル転送はTLS 1.3暗号化を使用します。書類は隔離されたセッションで処理され、24時間以内にサーバーから自動削除されます。税務データがAIモデルの学習や改善に使用されることは一切なく、お客様だけのデータとして保持されます。特定のデータ保存場所や保持期間の要件がある会計事務所向けに、処理はデータの永続性を最小限に抑える設計です：アップロード、抽出、ダウンロード後、元の書類は消去されます。抽出されたスプレッドシートはお客様の端末に残りますが、抽出データは処理期間を超えて保持されることはありません。