IA consegue extrair dados de XML de NF-e? Sim — Análise inteligente, não OCR

Sim. A IA consegue extrair dados de arquivos XML de NF-e (Nota Fiscal Eletrônica) brasileiras — lendo CNPJ do fornecedor, códigos NCM dos produtos, valores de ICMS/IPI e detalhes dos itens. Mas a NF-e é um caso especial: os dados já estão estruturados em XML. A extração aqui significa interpretar de forma inteligente o esquema XML e mapear campos para colunas legíveis em planilha, não OCR. Cada NF-e de fornecedor segue o mesmo esquema governamental, mas contém campos opcionais, configurações fiscais e elementos de versão diferentes, o que torna a consolidação manual de dezenas de fornecedores uma dor de cabeça recorrente.

Como funciona a extração de XML de NF-e — e por que você ainda precisa de "extração"

Se os dados da NF-e já estão em XML, por que não criar uma folha de estilos XSLT e pronto? Porque você nunca recebe apenas um formato de NF-e.

O sistema de NF-e do Brasil — criado pelo Ajuste SINIEF 07/05 e hoje obrigatório para praticamente todas as transações B2B — define um esquema XML padrão do governo (atualmente na versão 4.0). Toda nota fiscal eletrônica carrega a mesma estrutura raiz: CNPJ e razão social do emitente, dados do destinatário, itens com classificação NCM e código CFOP, e quatro blocos de impostos separados para ICMS, IPI, PIS e COFINS.

O problema aparece quando você recebe XML de 30 fornecedores em um mês. Cada um usa um ERP diferente — TOTVS, Sankhya, Omie, SAP Business One — e cada um preenche campos opcionais diferentes. Um inclui detalhes de frete; outro os omite. Um usa NF-e 4.0 com totalização expandida; outro ainda opera na versão 3.10.

Abordagens tradicionais de análise de XML — XSLT, scripts Python, importações do Power Query — quebram quando campos estão ausentes ou os namespaces mudam. A IA lê o XML semanticamente, identificando campos pelo que representam, não por onde estão na árvore. Isso é Extração de Colunas Personalizadas aplicada a dados estruturados — você define as colunas de saída desejadas ("CNPJ do Fornecedor", "Código NCM", "Valor do ICMS"), e a IA localiza os dados correspondentes independentemente de campos opcionais ou diferenças de versão.

O que a IA acerta no XML de NF-e

A natureza estruturada do XML de NF-e faz com que a precisão da extração por IA seja maior do que em documentos baseados em imagem — frequentemente ultrapassando 99% para campos padronizados essenciais. As restrições de formato favorecem a IA de três maneiras.

CNPJ e CPF

Todo XML de NF-e contém o CNPJ do emitente (Cadastro Nacional da Pessoa Jurídica — o CNPJ federal de 14 dígitos) em uma posição fixa dentro do bloco <emit>. O formato rígido XX.XXX.XXX/XXXX-XX e o caminho XML previsível tornam a extração praticamente livre de erros. A precisão da extração de CNPJ em XML de NF-e 3.10 e 4.0 ultrapassa 99,5% — o formato estruturado elimina a ambiguidade de reconhecimento de caracteres que afeta notas fiscais digitalizadas.

Códigos NCM

Os códigos NCM (Nomenclatura Comum do Mercosul) — a classificação de produtos de 8 dígitos usada nos países do Mercosul — ficam em sua própria tag <NCM> dentro de cada item da nota. Para empresas que enviam o SPED Fiscal (Sistema Público de Escrituração Digital), a extração precisa do NCM de NF-e de compra recebidas é crítica: códigos errados geram alertas de auditoria. A IA atinge 98-99% de precisão porque o código segue um padrão numérico rígido de 8 dígitos em uma tag XML dedicada.

Valores de Impostos (ICMS, IPI, PIS, COFINS)

Uma única NF-e pode conter quatro impostos diferentes, cada um com sua própria base de cálculo, alíquota e valor final — uma carga tributária incomumente alta em comparação com faturas de outros países. As seções de impostos são blocos XML claramente separados, e a IA mapeia cada um para sua coluna de saída com alta confiabilidade. Em NF-e onde todas as seções de impostos estão preenchidas, a precisão do valor do ICMS chega a 99%+ — maior que a digitação manual, que introduz erros de transposição.

Onde a IA Enfrenta Dificuldades com XML de NF-e

A estrutura que torna a extração de NF-e precisa também cria casos extremos. Três cenários reduzem a confiabilidade.

Diferenças de Esquema Entre Versões

A NF-e evoluiu através de múltiplas versões — 1.0, 2.0, 3.10 e 4.0 (atual). Cada revisão adicionou, removeu ou renomeou tags XML. Quando a IA encontra um XML de NF-e 2.0 antigo onde um campo simplesmente não existe, ela deixa a célula vazia corretamente — mas essa célula vazia pode quebrar fórmulas de planilha downstream que esperam um valor. A solução: processar XML de versões antigas separadamente e aplicar validação pós-extração para sinalizar campos ausentes.

Campos Opcionais e NF-e Apenas de Serviço

Muitos campos da NF-e são opcionais. Notas fiscais de serviço omitem campos relacionados a produtos — sem códigos NCM, sem IPI. Quando a IA processa um lote misto, ela deixa colunas inaplicáveis vazias corretamente, mas se sua planilha assume que toda linha tem um código NCM, as linhas de serviço parecem incompletas. Defina colunas que cubram ambos os cenários — "Código NCM (apenas NF-e de produto)" — para definir expectativas.

Fluxos de Trabalho Misto com XML + DANFE

O DANFE (Documento Auxiliar da NF-e) é o PDF impresso que acompanha a nota. Muitos fornecedores brasileiros de pequeno porte enviam apenas o DANFE, sem o XML correspondente. DANFEs em PDF exigem extração por IA baseada em imagem, com precisão de 90 a 95% — menor que os 99%+ obtidos com a leitura direta do XML. A melhor prática: solicite o XML de todos os fornecedores e trate arquivos apenas com DANFE como um lote separado e de menor confiabilidade.

Como Obter os Melhores Resultados na Extração de XML da NF-e

Cinco etapas que fazem diferença mensurável ao trabalhar com notas fiscais eletrônicas brasileiras.

Defina nomes de colunas semânticos, não caminhos de XML. Use "CNPJ do Fornecedor", "Código NCM", "Valor do ICMS" — e não strings XPath como /nfeProc/NFe/infNFe/emit/CNPJ. A IA resolve isso semanticamente, encontrando o CNPJ esteja ele na posição da NF-e 4.0 ou em um local ligeiramente diferente da NF-e 3.10. Isso é a Extração de Colunas Personalizadas aplicada a dados estruturados.

Solicite o XML, não o DANFE em PDF. Essa simples mudança de hábito gera uma melhoria de 5 a 10 pontos percentuais na precisão. A lei brasileira exige que os fornecedores forneçam o XML — envie aos novos fornecedores: "Por favor, enviar o arquivo XML da NF-e juntamente com o DANFE."

Agrupe as NF-e por versão ao processar em lote. Separe XMLs de NF-e 4.0 dos arquivos mais antigos 3.10 ou 2.0. A versão atual do esquema preenche mais campos — processá-los juntos faz com que as linhas de versões mais antigas tenham mais células vazias, o que pode parecer falha de extração. Agrupar por versão permite revisar cada lote com as expectativas corretas.

Use colunas calculadas para validação de impostos. Os impostos brasileiros criam verificações de auditoria embutidas. Defina uma coluna calculada que verifica se valor do ICMS ≈ base do ICMS × alíquota do ICMS — a IA sinaliza discrepâncias durante a extração, em vez de você descobri-las depois no seu sistema contábil.

Faça uma verificação pontual do bloco de totais. A seção <total> contém valores somados definitivos. Após a extração, verifique se os totais dos itens da linha correspondem ao total declarado no XML — uma divergência sinaliza um erro mais rápido do que revisar cada campo. Em XMLs limpos, menos de 2% das NF-e falham nesta verificação.

Cenários Reais

Consolidação de NF-e de Múltiplos Fornecedores para o SPED Fiscal

Uma indústria de médio porte em São Paulo recebe de 30 a 50 XMLs de NF-e por mês de fornecedores de matéria-prima — aço da Gerdau, componentes elétricos da WEG, embalagens de fornecedores locais. Cada NF-e tem alíquotas de ICMS diferentes (de 7% a 18%, dependendo do estado de origem) e graus variados de preenchimento dos campos. O lançamento manual consumia dois dias inteiros por mês de um auxiliar de contas a pagar.

Com a extração por IA, o upload de todos os arquivos XML em lote gera uma planilha consolidada com colunas: CNPJ do Fornecedor, Número da NF-e, Data de Emissão, Código NCM, Descrição do Produto, Quantidade, Preço Unitário, Base de ICMS, Valor do ICMS, Total da NF-e — pronta para importação no ERP TOTVS da empresa. Dois dias de trabalho viram três minutos, e os valores de ICMS são validados contra o bloco de totais do XML, detectando erros antes de chegarem ao SPED.

Extração de NCM para Cálculo de Impostos de Importação

Uma empresa de logística que lida com importações precisa dos códigos NCM e valores dos produtos das NF-e dos fornecedores para calcular os impostos de importação. Cada NF-e contém de 5 a 20 itens com classificações diferentes. A IA extrai uma linha por item em segundos — formatada para o modelo de declaração do despachante aduaneiro.

Perguntas Frequentes

A IA consegue distinguir ICMS, IPI, PIS e COFINS na mesma NF-e?

Sim. Cada imposto tem seu próprio bloco XML com elementos-filho únicos — o ICMS tem <orig> e <CST>, o IPI tem <clEnq>. A IA os mapeia para colunas de saída separadas de forma limpa, pois a estrutura do XML os diferencia. Isso é mais fácil para a IA do que a extração baseada em imagem, onde os impostos aparecem como linhas indiferenciadas de números.

A IA funciona com NF-e de diferentes estados brasileiros com alíquotas de ICMS distintas?

Sim. A alíquota de ICMS está declarada dentro do bloco <ICMS> de cada NF-e. Seja uma NF-e com 18% de São Paulo ou 19% do Rio de Janeiro, a IA lê a alíquota diretamente do XML. Cenários de ICMS-ST (Substituição Tributária) entre estados também são capturados, pois o XML marca explicitamente os valores de ICMS-ST.

A IA consegue extrair dados de XML de NF-e em português para uma planilha com colunas em inglês?

Sim. Defina colunas de saída em inglês — "Supplier CNPJ", "Invoice Total" — e a IA mapeia os campos do XML em português para os cabeçalhos em inglês. As tags XML são independentes de idioma, e o mapeamento semântico funciona entre línguas. Para mais detalhes, veja como a IA lida com extração multilíngue.

E quanto às NFS-e (notas fiscais de serviço municipais)?

A NFS-e (Nota Fiscal de Serviços Eletrônica) é um documento municipal separado — cada prefeitura tem seu próprio esquema. Diferente da padronização federal da NF-e, os formatos da NFS-e variam por município. A IA também consegue extrair dados de XML de NFS-e, mas a variação de esquema por cidade exige mais verificação. A NF-e (federal, para mercadorias) é a confiável; a NFS-e (municipal, para serviços) introduz mais variáveis.

A extração por IA de XML de NF-e está em conformidade com a guarda de registros fiscais brasileiros?

A extração é uma etapa de transformação de dados — ela não altera o XML original, que continua sendo seu registro fiscal legal. As autoridades fiscais brasileiras exigem a retenção do XML de NF-e com assinatura digital por 5 anos (prazo decadencial, CTN Art. 173). A extração por IA cria uma planilha derivada; o XML original com assinatura digital permanece intacto.

Qual a diferença de precisão entre a extração de XML de NF-e e de PDF de DANFE?

É uma categoria totalmente diferente. A extração de XML de NF-e atinge 99%+ nos campos principais porque os dados estão em tags XML inequívocas. A extração de PDF de DANFE — lendo a representação impressa — cai para 90-95% porque se torna um problema de interpretação de imagem: variações de fonte, qualidade de impressão e alinhamentos de colunas introduzem os mesmos erros de qualquer documento escaneado. Sempre prefira XML ao DANFE quando ambos estiverem disponíveis.

Conclusão

A extração de XML de NF-e não é uma questão de capacidade da IA — é uma decisão de fluxo de trabalho. O formato estruturado torna a extração mais precisa do que qualquer documento baseado em imagem poderia ser, mas essa estrutura pode ser enganosa: "é só XML" faz o problema de consolidação parecer mais simples do que é. O trabalho real — mapear campos inconsistentes entre 30 fornecedores, quatro versões de NF-e e múltiplas configurações tributárias — é um reconhecimento de padrões repetitivos que a IA automatiza melhor do que qualquer script XSLT ou macro do Excel.

A questão não é se a IA consegue extrair XML de NF-e. É se você quer passar a tarde rastreando caminhos <ICMS><ICMSSN102><orig> em 200 arquivos ou deixar a IA mapear CNPJ, códigos NCM e valores de ICMS para uma planilha em menos de um minuto.

Teste em seus arquivos XML de NF-e →