Por que a matemática dos itens da sua fatura está errada após a extração: 4 causas e soluções

Seu extrator de faturas acertou o nome do fornecedor, número da fatura e total geral. Mas ao verificar os itens, algo está errado: a linha 3 mostra Qtd 4, Preço Unitário R$ 150,00, Total do Item R$ 300,00 — R$ 300 a menos. No entanto, cada campo individual parece correto. A IA não leu nada errado. Ela pareou algo errado.

Este é o modo de falha mais silencioso na extração de faturas por IA. A IA atinge mais de 98% de precisão em campos individuais — ela lê quantidades, preços unitários e totais de linha corretamente como valores isolados. Mas a consistência entre campos é um desafio fundamentalmente diferente. Um modelo de visão que consegue ler "$150,00" de uma página com alta confiança não sabe automaticamente se esses $150,00 pertencem ao preço unitário da linha 2, ao total da linha 3 ou ao subtotal da seção. Quando essas relações se quebram, a matemática dos itens de linha para de fechar, e o erro fica invisível para as pontuações de confiança por campo.

Um estudo de 2025 sobre Docling e LlamaExtractor confirma a lacuna: verificações de consistência (itens de linha + imposto = total) falharam em 20% das faturas — principalmente aquelas com cenários complexos de múltiplos impostos ou formatação não padrão (arXiv 2510.15727v1). Se você está vendo discrepâncias de quantidade × preço na sua saída, suas faturas provavelmente se enquadram em um de quatro padrões distintos.

▮ Causa 1: A IA Pareou a Qtd da Linha 1 com o Preço da Linha 2

Tabelas densas de itens de linha são a fonte mais comum de erros de pareamento entre linhas. Quando uma fatura tem 15+ itens de linha sem separadores visíveis de linha — apenas linhas de texto empilhadas — o raciocínio espacial da IA precisa decidir exatamente onde uma linha termina e a próxima começa. Um deslocamento de alguns pixels pode fazer o modelo associar a quantidade da linha N com o preço unitário da linha N+1.

Sintoma: Itens de linha individuais têm matemática errada, mas a soma de todos os cálculos de Qtd × Preço é igual ao subtotal da fatura. Isso indica que os valores estão todos corretos — eles estão apenas pareados com os vizinhos errados.

Leituras entre linhas ocorrem com mais frequência em três cenários:

Sem bordas de linha visíveis: Faturas que usam apenas espaços em branco para separar linhas. A IA adivinha onde estão os limites e às vezes erra.
Descrições multilinha: Uma descrição de produto que ocupa duas linhas empurra as linhas seguintes para baixo. A IA pode mapear o texto de continuação como uma nova linha, deslocando todos os pares seguintes.
Células mescladas no cabeçalho da tabela: Uma linha de cabeçalho com rótulos de coluna mesclados pode confundir a detecção do número de colunas da IA, fazendo com que ela desalinhe toda a estrutura da tabela desde o início. Veja como células mescladas quebram a extração de tabelas para uma análise mais aprofundada.

Como detectar: Execute uma fórmula de validação em nível de linha (detalhada na seção de estrutura abaixo). Leituras entre linhas produzem uma impressão digital distinta — algumas linhas superestimam o total, outras subestimam, e os erros se cancelam no nível do subtotal.

▮ Causa 2: Confusão de Unidade de Medida — "12" Nem Sempre São 12 Peças

Uma quantidade de "12" em uma linha de fatura é ambígua sem sua unidade de medida. São 12 peças? 12 dúzias (144 unidades)? 12 quilogramas? 12 pés lineares a US$ 3,75 por pé? O número em si é claro, mas a IA não pode multiplicar 12 por um preço unitário a menos que saiba o que "12" representa.

A confusão de unidade de medida (UOM) produz dois padrões de erro distintos:

UOM em uma coluna separada: Algumas faturas têm uma coluna "UOM" (EA, DZN, KG, FT) entre os campos de quantidade e preço unitário. Se a IA não conseguir ler ou associar esta coluna, ela trata "12 DZN" (144 unidades × preço) como "12 EA" (12 unidades × preço), produzindo um total de linha que é 1/12 do que deveria ser.
UOM incorporada na descrição: Muitas faturas escrevem "12 × CASE" ou "12 @ PREÇO DE CAIXA" dentro do campo de descrição. A IA lê "12" na coluna de quantidade, mas não tem mecanismo para entender que este "12" significa "12 caixas de 6 unidades cada." O total de Qtd × Preço resultante estará errado pelo multiplicador da caixa.

Este erro é enganoso porque os números parecem internamente consistentes. Qtd = 12, Preço Unitário = US$ 45,00, Total da Linha = US$ 540,00 — a matemática funciona. Mas se a fatura realmente diz "12 dúzias a US$ 45,00 por dúzia" e a IA leu como 12 peças, o total está errado por um fator de 12. A IA extraiu números plausíveis que, por acaso, falham na verificação da realidade do negócio.

Problemas de extração relacionados à unidade se agravam quando o documento de origem tem pontos decimais ausentes ou símbolos de moeda ambíguos — um decimal ausente no preço unitário amplifica qualquer desalinhamento de UOM.

Como detectar: Cruze o total da linha com uma tabela de preços ou média histórica para o mesmo item. Um preço unitário de US$ 45,00 em um item que historicamente custa US$ 7,50 por unidade é um sinal de alerta — a IA pode ter lido a UOM como "EA" quando era na verdade "CAIXA (6 EA)." Para faturas sem dados históricos, sinalize qualquer linha onde Qtd × Preço Unitário produza um número redondo que se desvie das faixas de preço esperadas.

▮ Causa 3: Confusão entre Valor da Linha Pré-Desconto e Pós-Desconto

As faturas usam diferentes convenções para exibir os totais dos itens. Algumas mostram o valor bruto (pré-desconto) na linha e aplicam os descontos no rodapé da fatura. Outras calculam o valor líquido (pós-desconto) diretamente na linha e resumem um valor de "descontos totais" separadamente. Os modelos de extração de IA muitas vezes não conseguem identificar qual convenção uma fatura específica utiliza, especialmente quando o cabeçalho da coluna diz apenas "Valor".

Exemplo: O item da linha mostra "Qtd 10, Preço Unitário R$ 50,00, Valor R$ 475,00." A conta fecha em 10 × R$ 47,50, mas o preço unitário lê R$ 50,00. O que aconteceu? A fatura aplica um desconto de 5% no nível da linha (R$ 2,50/unidade) e mostra o valor líquido na linha enquanto exibe o preço unitário bruto. A IA extraiu ambos os valores corretamente — eles apenas pertencem a etapas diferentes do cálculo do desconto.

Três convenções de desconto são comuns o suficiente para causar confusão regular na extração:

Desconto no nível da linha, linha mostra valor bruto: A linha exibe Qtd × Preço Cheio. O desconto é aplicado no rodapé da fatura. A IA extrai o total da linha como está, e Qtd × Preço corresponde. Nenhuma incompatibilidade aqui — mas o valor do desconto é invisível no nível da linha.
Desconto no nível da linha, linha mostra valor líquido: A linha exibe Qtd × (Preço Cheio − Desconto). A coluna de preço unitário ainda mostra R$ 50,00, mas o valor da linha reflete o valor com desconto. Qtd × R$ 50,00 ≠ Total da Linha, mesmo que todos os campos sejam lidos corretamente.
Convenção mista na mesma fatura: Alguns itens da linha têm desconto, outros não. A IA aplica uma interpretação uniforme a todas as linhas, fazendo com que algumas correspondam e outras falhem.

Como identificar: A assinatura desse erro é que Qtd × Preço Unitário superestima consistentemente o Total da Linha em uma porcentagem fixa em várias linhas. Se você vir "Valor = Qtd × Preço × 0,95" como um padrão nas linhas com desconto, enquanto as linhas sem desconto correspondem, a fatura usa a exibição de valor líquido na linha. Sinalize esses casos e confirme com os termos de desconto do fornecedor, em vez de assumir erro de extração.

▮ Causa 4: Mistura de Valores com e sem Imposto na Mesma Nota Fiscal

Notas fiscais em regimes de IVA/ICMS frequentemente misturam preços com e sem imposto no mesmo documento. Alguns itens incluem o imposto no valor exibido (comum em bens de consumo ou vendas B2C). Outros mostram o valor sem imposto, com o IVA calculado no rodapé (padrão para B2B). Um modelo de IA que aplica uma única interpretação a todos os itens gerará divergências nas linhas de tipo misto.

Muitas notas não identificam cada linha como "com IVA" ou "sem IVA". A distinção é implícita pelo tipo de cliente, categoria de produto ou jurisdição — uma nuance que até softwares contábeis como Xero e AutoEntry tratam com botões específicos justamente por não ser trivial.

Três cenários reais causam esse erro:

Notas com fornecimento misto: Uma única nota de hotel, por exemplo, lista diárias (sujeitas a IVA à taxa padrão) junto com taxas de serviço (isentas de IVA) e estacionamento (taxa reduzida). Cada linha pode ser exibida com ou sem imposto dependendo do sistema contábil do fornecedor, criando um alvo de extração inconsistente.
Notas internacionais: Um fornecedor dos EUA fatura um cliente do Reino Unido. A nota mostra valores em USD (sem IVA), mas o rodapé aplica uma observação de IVA por inversão do sujeito passivo. A IA treinada principalmente em padrões de notas domésticas pode interpretar os valores sem imposto de forma diferente.
Notas de crédito e ajustes: Linhas de correção que referenciam valores originais com ou sem imposto criam uma divergência quando a IA aplica uma interpretação fiscal consistente a todas as linhas.

O estudo de extração de notas fiscais do arXiv constatou que falhas de consistência estavam "concentradas em notas com cenários fiscais múltiplos complexos" — exatamente esses documentos mistos com/sem imposto que produzem Qtd × Preço ≠ Total da Linha sem que nenhum campo individual esteja errado.

Como identificar: Verifique se a taxa de divergência se correlaciona com códigos fiscais ou categorias de produto específicos na mesma nota. Se linhas com código de IVA "S" (taxa padrão) estiverem corretas, mas linhas com código "Z" (taxa zero) mostrarem um desvio consistente exatamente na porcentagem do IVA, a IA está aplicando a premissa de inclusão errada aos itens com taxa zero.

▮ A Solução: Um Framework de Validação em 3 Camadas para Consistência de Itens

Cada uma das quatro causas acima produz uma impressão digital diferente nos dados extraídos. Um framework de validação sistemático captura todas elas — e torna visível o que as pontuações de confiança por campo não conseguem.

Camada 1: Fórmula de Validação por Linha

A verificação mais rápida e abrangente é uma coluna de fórmula:

=ARRED(Qtd*PrecoUnit,2)

Compare com o Total da Linha extraído. Sinalize linhas onde a diferença exceda $0,01, usando uma formatação condicional:

=ABS(ARRED(A2*B2,2)-C2)>0,01

A direção e a magnitude do desvio indicam qual causa:

Erros se cancelam entre linhas → Causa 1 (leitura cruzada). Os valores estão todos presentes, apenas pareados incorretamente.
Desvio por fator consistente (ex.: sempre diferença de 0,5, 6 ou 12) → Causa 2 (confusão de UDM). O fator é o multiplicador da unidade de medida.
Desvio percentual consistente → Causa 3 (confusão de desconto). A porcentagem corresponde à taxa de desconto.
Desvios vinculados a códigos fiscais específicos → Causa 4 (confusão de inclusão de imposto). A porcentagem de desvio corresponde à alíquota aplicável de IVA/ICMS.

Camada 2: Dicas de Relacionamento entre Campos para a IA

Ao configurar a extração, ajude a IA a entender os relacionamentos entre campos sendo explícito sobre o que pertence junto. A Extração de Colunas Personalizadas do ImageToTable.ai funciona semanticamente — você informa as colunas desejadas, e a IA localiza cada valor entendendo seu significado. Para melhorar o pareamento entre campos:

Use nomes de colunas descritivos: "Preço Unitário (por item)" e "Total da Linha (Qtd × Preço Unitário)" ajudam a IA a distinguir valores por unidade de valores por linha.
Defina uma coluna calculada como verificação cruzada: Crie Validação do Total da Linha (Qtd × Preço Unitário) — a IA extrai os valores e executa o cálculo, revelando incompatibilidades durante a extração, e não após a exportação.
Defina regras de formato para campos numéricos: Especifique que quantidades são números inteiros, a menos que haja decimal, e que preços unitários sempre têm duas casas decimais. Isso restringe interpretações ambíguas.

Camada 3: Amostragem Direcionada por Verificação Pontual

Mesmo com verificações de fórmula, alguns erros passam despercebidos — especialmente quando Qtd × Preço resulta em um total de linha plausível, mas incorreto. A amostragem direcionada por verificação pontual preenche essa lacuna. Para cada lote, verifique manualmente: todas as linhas sinalizadas pela Camada 1, 10% das linhas aprovadas (para capturar totais corretos por coincidência) e uma nota fiscal por fornecedor (peculiaridades sistêmicas de formatação). Isso detecta mais de 95% das discrepâncias matemáticas, exigindo revisão manual de menos de 15% dos dados.

▮ Quando Escalar: O Limiar de 5%

Se seu framework de validação sinalizar mais de 5% dos itens de linha em um lote, o problema provavelmente é sistêmico — um padrão consistente de desalinhamento entre campos que nenhum ajuste de fórmula de validação conseguirá corrigir no nível do item de linha.

Três cenários justificam escalação:

Concentração em um único fornecedor: 70%+ das linhas sinalizadas vêm de um mesmo fornecedor. O layout desse fornecedor é incompatível com sua abordagem atual. Pré-processe essas notas fiscais ou direcione-as para um pipeline diferente.
Complexidade de múltiplos tributos: Notas fiscais com 3+ alíquotas de imposto ou valores mistos (inclusivos/exclusivos). Mesmo os melhores modelos falham nelas 20% das vezes (conforme estudo do arXiv). Sinalize para revisão manual por um contador especializado em tributos, em vez de tentar corrigir a extração.
Documentos-fonte de baixa qualidade: Se as sinalizações aparecerem simultaneamente nos quatro padrões, a causa raiz é OCR de baixa qualidade, e não confusão de relacionamento. Resolva primeiro a qualidade da fonte — veja correções de extração de decimais e moedas.

O limiar protege sua equipe de um ciclo interminável de ajustes. Se a extração atingir 98%+ em campos independentes e 95%+ em consistência entre campos, isso é funcional para a maioria dos fluxos de AP — os 5% restantes são mais baratos de tratar via roteamento de exceção do que eliminar completamente.

▮ FAQ

Uma divergência entre Qtd × Preço Unitário sempre indica erro de extração?

Não. Algumas faturas realmente exibem valores de linha que não correspondem a Qtd × Preço Unitário — devido a descontos por volume aplicados no nível da linha, preços promocionais ou ofertas combinadas em que o preço unitário na linha é uma média, não o preço por item. Sempre verifique a fatura original antes de tratar uma divergência como erro de extração.

Posso confiar no total geral se os itens da linha tiverem divergências matemáticas?

Não automaticamente. Se a Causa 1 (leitura entre linhas) estiver em jogo, os erros se anulam e o total geral pode ainda estar correto. Mas para as Causas 2–4, o total geral provavelmente está errado, pois os valores das linhas alimentam os cálculos de subtotal e total. Sempre resolva as divergências no nível da linha antes de usar os totais extraídos para pagamento.

Por que minha ferramenta de IA relata 99% de confiança em campos que estão mal pareados?

Porque as pontuações de confiança medem a legibilidade individual do campo, não a consistência lógica entre campos. Um modelo de visão pode ter 99% de confiança de que "$150,00" aparece em uma determinada posição na página — e essa confiança não muda se os $150,00 são um preço unitário ou um total de linha. A validação entre campos é uma etapa separada que nenhuma pontuação de confiança substitui.

Como lidar com a confusão de UOM entre diferentes fornecedores?

Padronize sua saída de extração adicionando uma coluna separada "UOM" ao seu modelo de extração. Inclua uma instrução de formato clara: "Extraia a unidade de medida (UN, DZ, KG, M, CX, CIXA) da mesma linha e produza-a como uma coluna separada." Isso torna a UOM visível em sua saída para que você possa criar regras de conversão em sua planilha, em vez de depender da IA para interpretar unidades automaticamente.

▮ O Item da Linha é a Unidade de Verdade em AP

A extração em nível de cabeçalho — nome do fornecedor, número da fatura, total geral — tornou-se precisa como commodity. A fronteira onde a qualidade ainda varia significativamente está no nível do item da linha, onde as relações entre campos importam tanto quanto os valores dos campos. A IA lê números individuais corretamente, mas a atribuição às colunas e linhas corretas depende da compreensão do modelo sobre a semântica do documento. Essa compreensão semântica está melhorando rapidamente, mas ainda não está no nível em que a validação entre campos pode ser ignorada. O framework — coluna de fórmula + dicas de relacionamento + amostragem direcionada — é o processo apropriado para qualquer fluxo de trabalho de extração que alimente pagamento ou conciliação.

Configure a coluna de fórmula no seu próximo lote. Os cinco minutos que leva para adicionar =ARRED(Qtd*PrecoUnitario;2) e uma formatação condicional lhe dirão mais sobre a qualidade da sua extração do que qualquer pontuação de confiança.