AIはNF-e XMLからデータを抽出できる?はい — スマートパース、OCR不要

はい。AIはブラジルのNF-e(Nota Fiscal Eletrônica)XMLファイルからデータを抽出できます — サプライヤーのCNPJ、製品のNCMコード、ICMS/IPI税額、明細行の詳細を読み取ります。 ただしNF-eは特殊なケースです。データはすでにXMLで構造化されています。ここでの抽出とは、XMLスキーマをインテリジェントに解析し、フィールドを読み取り可能なスプレッドシートの列にマッピングすることを意味し、OCRではありません。各サプライヤーのNF-eは同じ政府スキーマに従っていますが、含まれるオプションフィールド、税設定、バージョン固有の要素が異なるため、数十のサプライヤーにわたる手動での統合は繰り返し発生する頭痛の種となっています。

手入力をやめよう — AIに読み取らせるだけ
画像やPDFをアップロード — 10秒で構造化データに
今すぐ試す
登録不要 · カード不要 · 10秒で結果
AIがブラジルのNF-e XML税務文書からデータを抽出し、構造化されたスプレッドシートに変換

重要ポイント

  1. 政府標準化されたNF-e XMLデータは機械可読であるべきだが、ブラジルの経理チームのほとんどは、異なるERPを使用する30のサプライヤーからのフィールドを手動で統合するために、月に2日を費やしている。
  2. バージョン4.0で完璧に動作するNF-e解析スクリプトが、バージョン2.0では同じフィールドが存在しないために静かに失敗する — XML自体は有効だがフィールドが欠落しており、スクリプトは見つからないものを報告する手段を持たない。
  3. セマンティック抽出は、フィールドがXMLツリーのどこにあるかではなく、その意味(サプライヤーCNPJやICMS値など)に基づいて読み取るため、1セットの列定義で、どのサプライヤーから送信されたか、どのバージョンを使用しているかに関係なく、すべてのNF-eから同じデータを抽出できる。

NF-e XML抽出の仕組み — なぜ「抽出」が必要なのか

NF-eデータがすでにXML形式なら、XSLTスタイルシートを作成すれば済むのでは? そうはいきません。受け取るNF-eの形式は決して一つではないからです。

ブラジルのNF-e制度は、Ajuste SINIEF 07/05によって創設され、現在では事実上すべてのB2B取引で義務付けられています。政府標準のXMLスキーマ(現行バージョン4.0)に従い、すべての電子インボイスは同じ基本構造を持ちます。発行者のCNPJと会社名、受取人データ、NCM分類とCFOPコードを含む明細行、そしてICMS(州付加価値税)、IPI(連邦物品税)、PIS、COFINSの4つの独立した税ブロックです。

問題は、1か月に30のサプライヤーからXMLを受け取る場合に発生します。各社は異なるERP — TOTVS、Sankhya、Omie、SAP Business One — を使用しており、それぞれ異なるオプションフィールドを設定しています。ある会社は運送詳細を含めますが、別の会社は省略します。ある会社は拡張集計機能を持つNF-e 4.0を使用し、別の会社は依然として3.10で運用しています。

従来のXML解析手法(XSLT、Pythonスクリプト、Power Queryインポート)は、フィールドが欠落していたり名前空間が変わると機能しません。AIはXMLを意味的に読み取り、ツリー上の位置ではなく、フィールドが何を表すかによって識別します。これは構造化データに適用されるカスタム列抽出です。必要な出力列(「サプライヤーCNPJ」「NCMコード」「ICMS額」)を定義すれば、AIはオプションフィールドやバージョンの違いに関係なく、一致するデータを見つけ出します。

AIがNF-e XMLで正しく処理できること

NF-e XMLの構造化された性質により、AIの抽出精度は画像ベースのドキュメントよりも高く、コアとなる標準化フィールドでは99%を超えることがよくあります。形式上の制約が、以下の3つの点でAIに有利に働きます。

CNPJおよびCPF税務ID

すべてのNF-e XMLには、発行者のCNPJ(Cadastro Nacional da Pessoa Jurídica — 14桁の連邦税務ID)が<emit>ブロック内の固定位置に含まれています。厳格なXX.XXX.XXX/XXXX-XX形式と予測可能なXMLパスにより、抽出は事実上エラーがありません。NF-e 3.10および4.0 XMLにおけるCNPJ抽出精度は99.5%を超えます。構造化形式により、スキャンされた紙のインボイスに付きまとう文字認識の曖昧さが排除されます。

NCMコード

NCM(メルコスール共通名称)コードは、メルコスール加盟国で使用される8桁の製品分類で、各明細行内の専用の<NCM>タグに格納されています。SPED Fiscal(ブラジルのデジタル税務帳簿システム)を提出する企業にとって、仕入NF-eからの正確なNCM抽出は極めて重要です。コードを誤ると税務調査の対象となります。AIは、専用XMLタグ内の厳格な8桁の数字パターンに従うため、98~99%の精度を達成します。

税額(ICMS、IPI、PIS、COFINS)

1枚のNF-eには4つの異なる税金が含まれ、それぞれに独自の計算基準、税率、最終額があります。これは他国の請求書と比較して異例に税項目が多いです。税セクションは明確に分離されたXMLブロックであり、AIは各項目を出力列に高信頼性でマッピングします。すべての税セクションが入力されたNF-eでは、ICMS値の精度は99%以上に達します。これは転記ミスが発生する手動データ入力よりも高い精度です。

AIがNF-e XMLで苦手とする点

NF-e抽出を正確にする構造は、同時にエッジケースも生み出します。信頼性を低下させる3つのシナリオがあります。

バージョン間のスキーマ差異

NF-eは複数のバージョン(1.0、2.0、3.10、現在の4.0)を経て進化してきました。各改訂でXMLタグの追加、削除、名称変更が行われました。AIが古いNF-e 2.0 XMLを処理する際、フィールドが単に存在しない場合、正しくセルを空欄にします。しかし、その空欄が値の入力を想定する下流のスプレッドシート数式を壊す可能性があります。 対策:古いバージョンのXMLは別途バッチ処理し、抽出後の検証を適用して欠落フィールドをフラグ付けします。

オプションフィールドとサービス専用NF-e

多くのNF-eフィールドはオプションです。サービス請求書は製品関連フィールド(NCMコード、IPIなど)を完全に省略します。AIが混在バッチを処理する際、該当しない列は正しく空欄になりますが、スプレッドシートですべての行にNCMコードがあると想定している場合、サービス行が不完全に見えます。「NCMコード(製品NF-eのみ)」のように両方のシナリオをカバーする列を定義し、期待値を明確に設定してください。

XML + DANFE の混在ワークフロー

DANFE(Documento Auxiliar da NF-e)は、NF-eに付随する印刷用PDFです。多くの小規模ブラジル企業は、元のXMLではなくDANFEのみを送付します。DANFE PDFは画像ベースのAI抽出が必要で、精度は90~95%と、直接XML解析による99%以上よりも低くなります。 ベストプラクティスは、すべてのサプライヤーにXMLを依頼し、DANFEのみのファイルは別の低信頼度バッチとして扱うことです。

NF-e XML抽出で最良の結果を得る方法

ブラジルの電子請求書を扱う際に、測定可能な差を生む5つのステップです。

1
XMLパスではなく、意味のある列名を定義する。 「サプライヤーCNPJ」「NCMコード」「ICMS額」のように、/nfeProc/NFe/infNFe/emit/CNPJ のようなXPath文字列は使いません。AIはこれらを意味的に解決し、NF-e 4.0の位置でも、少し異なるNF-e 3.10の場所でもCNPJを見つけます。これは構造化データに適用されたカスタム列抽出です。
2
DANFE PDFではなく、XMLを依頼する。 この習慣を変えるだけで、精度が5~10%向上します。ブラジルの法律では、サプライヤーはXMLを提供することが義務付けられています。新しいサプライヤーには「Por favor, enviar o arquivo XML da NF-e juntamente com o DANFE.」と送りましょう。
3
バッチ処理時はNF-eをバージョンごとにグループ化する。 NF-e 4.0のXMLを、古い3.10や2.0のファイルから分けます。現在のスキーマバージョンはより多くのフィールドを保持しており、一緒に処理すると古いバージョンの行に空のセルが多くなり、抽出失敗のように見えることがあります。バージョンごとにグループ化することで、各バッチを適切な期待値で確認できます。
4
税額検証には計算列を使用する。 ブラジルの税金は、組み込みの監査チェックを生み出します。ICMS額 ≈ ICMS課税標準 × ICMS税率 を検証する計算列を定義します。AIは抽出中に不一致をフラグ付けするため、後で会計システムで発見する必要がありません。
5
合計ブロックをスポットチェックする。 <total> セクションには、確定した合計値が含まれています。抽出後、明細行の合計がXMLの宣言された合計と一致することを確認します。不一致があれば、すべてのフィールドを確認するよりも早くエラーを特定できます。正常なXMLでは、このチェックに失敗するNF-eは2%未満です。

実際の活用事例

複数仕入先のNF-eを一元化しSPED Fiscalに対応

サンパウロ州の中堅メーカーは、鉄鋼(Gerdau)、電気部品(WEG)、包装材(地元業者)など、原材料仕入先から毎月30~50件のNF-e XMLを受領します。各NF-eのICMS税率は7%~18%(発行元の州により異なり)、項目の記入状況もまちまちです。手作業での入力には経理担当者が月に2日間を要していました。

AI抽出を導入すれば、全XMLファイルを一括アップロードするだけで、仕入先CNPJ、NF-e番号、発行日、NCMコード、製品名、数量、単価、ICMS課税標準、ICMS額、NF-e合計額の列からなる統合スプレッドシートが生成され、TOTVS ERPに直接インポート可能です。2日間の作業が3分に短縮され、ICMS額はXMLの合計ブロックと相互検証されるため、SPEDに到達する前にエラーを発見できます。

NCM抽出による輸入関税計算

輸入貨物を扱う物流企業は、関税計算のために仕入先NF-eからNCMコードと製品価格を取得する必要があります。各NF-eには5~20明細の異なる分類の品目が含まれます。AIは1明細につき1行を数秒で抽出し、通関業者の申告テンプレートに合わせた形式で出力します。

よくある質問

同一NF-e上のICMS、IPI、PIS、COFINSをAIは区別できますか?

はい。各税目には固有のXMLブロックと子要素があります。ICMSには<orig><CST>、IPIには<clEnq>があり、XML構造によって明確に区別されるため、AIはそれぞれを別々の出力列に正確にマッピングします。これは、税額が区別のない数字の行として表示される画像ベースの抽出よりもAIにとって容易です。

ICMS税率が異なるブラジルの他州発行のNF-eでもAIは機能しますか?

はい。ICMS税率(alíquota)は各NF-eの<ICMS>ブロック内に記載されています。サンパウロ州の18%でもリオデジャネイロ州の19%でも、AIはXMLから直接税率を読み取ります。州をまたぐICMS-ST(Substituição Tributária)のケースも、XMLがICMS-ST額を明示的にタグ付けしているため、正確に取得できます。

AIはポルトガル語のNF-e XMLから英語のカラムを持つスプレッドシートにデータを抽出できますか?

はい。出力カラムを英語で定義すれば(「Supplier CNPJ」「Invoice Total」など)、AIがポルトガル語のXMLフィールドを英語のヘッダーにマッピングします。XMLタグは言語に依存せず、セマンティックマッピングは言語を超えて機能します。詳細はAIによる多言語抽出の仕組みをご覧ください。

NFS-e(自治体サービスインボイス)はどうですか?

NFS-e(Nota Fiscal de Serviços Eletrônica)は自治体レベルの文書で、各市(prefeitura)が独自のスキーマを持ちます。連邦標準化されたNF-eとは異なり、NFS-eの形式は自治体ごとに異なります。AIはNFS-e XMLからも抽出できますが、スキーマの違いにより検証がより必要です。NF-e(連邦、物品用)が信頼性が高く、NFS-e(自治体、サービス用)は変数が多くなります。

NF-e XMLからのAI抽出はブラジルの税務記録保存要件に準拠していますか?

抽出はデータ変換のステップであり、元のXMLは変更されず、法的な税務記録として残ります。ブラジル税務当局は、電子署名付きNF-e XMLを5年間(除斥期間、CTN第173条)保存することを義務付けています。AI抽出は派生スプレッドシートを作成しますが、元の電子署名付きXMLはそのまま保持されます。

NF-e XML抽出とDANFE PDF抽出の精度の違いは?

まったく異なるカテゴリです。NF-e XML抽出は、データが明確なXMLタグに存在するため、コアフィールドで99%以上の精度を達成します。DANFE PDF抽出(印刷表現の読み取り)は90〜95%に低下します。これは画像認識の問題となり、フォントのバリエーション、印刷品質、カラムの配置がスキャン文書と同様のエラーを引き起こすためです。両方が利用可能な場合は、常にDANFEよりXMLを優先してください。

結論

NF-e XML抽出はAIの能力の問題ではなく、ワークフローの判断です。構造化された形式により、画像ベースの文書よりもはるかに正確な抽出が可能ですが、その構造は誤解を招く可能性があります。「ただのXML」と思わせることで、統合の問題を単純に見せかけます。実際の作業——30のサプライヤー、4つのNF-eバージョン、複数の税設定にわたる一貫性のないフィールドのマッピング——は、XSLTスクリプトやExcelマクロよりもAIが自動化に優れた反復的なパターンマッチングです。

問題はAIがNF-e XMLを抽出できるかどうかではありません。200ファイルの<ICMS><ICMSSN102><orig>パスを午後中追跡するか、AIにCNPJ、NCMコード、ICMS値を1分以内にスプレッドシートにマッピングさせるか、どちらを選ぶかです。

NF-e XMLで試してみる →

📮 contact email: [email protected]