IA consegue ler notas fiscais coreanas? Sim — dados em Hangul e numéricos

Sim. A IA consegue extrair dados de notas fiscais coreanas (세금계산서) — lendo tanto texto em Hangul quanto campos numéricos, incluindo números de registro de fornecedores (사업자등록번호), valores de fornecimento (공급가액) e valores de imposto. As notas coreanas apresentam desafios que você não encontra em documentos em inglês: espaçamento denso de caracteres CJK em layouts obrigatórios do governo, campos mistos de Hangul/números/inglês na mesma linha e dois formatos fundamentalmente diferentes — notas eletrônicas emitidas pelo sistema NTS e-Sero e notas fiscais simplificadas em papel (간이세금계산서) de fornecedores menores. O formato que você recebe determina o quão bem a IA lida com ele.

O Quão Bem a IA Lê Notas Fiscais Coreanas

As notas fiscais coreanas ocupam uma intersecção incomum para a IA. A obrigatoriedade de emissão eletrônica na Coreia do Sul — implementada gradualmente até 2023 sob a Lei do Imposto sobre Valor Agregado (부가가치세법 제32조), exigindo que contribuintes corporativos emitam notas através do sistema e-Sero da NTS — significa que a maioria das notas B2B segue um único layout governamental. A padronização ajuda: os mesmos campos aparecem nas mesmas regiões em todos os fornecedores. Mas o conteúdo — densos blocos de sílabas Hangul (2–4 letras jamo por espaço de caractere), números de registro comercial de dez dígitos (사업자등록번호) com hífens específicos, e numerais mistos em coreano/inglês/árabe na mesma linha — sobrecarrega os modelos de visão de uma forma que documentos em alfabeto latino nunca fazem.

Na prática, a precisão da IA segue um padrão de dois níveis: 90–95% em notas fiscais eletrônicas (전자세금계산서) do e-Sero, caindo para 75–85% em notas fiscais simplificadas em papel (간이세금계산서) de fornecedores menores. As notas eletrônicas chegam como documentos limpos e gerados por máquina, com fontes consistentes e separação clara de campos; as notas em papel de fornecedores locais adicionam caligrafia, carimbos e degradação por fotocópia.

Os scripts CJK consomem 2–3× o orçamento de tokens de documentos em alfabeto latino — um único bloco de sílaba Hangul como 값 carrega a densidade de informação de vários caracteres latinos. A precisão em campos numéricos densamente preenchidos, cercados por rótulos Hangul, cai ligeiramente em comparação com notas em inglês, onde espaços em branco separam números de texto. Para mais, veja como a IA lida com documentos em vários idiomas em uma única passagem.

O Que a IA Acerta em Notas Fiscais Coreanas

O formato da nota fiscal coreana, paradoxalmente, torna a extração pela IA mais confiável do que em notas fiscais em inglês de formato livre. Veja quais campos atingem precisão quase humana e por quê.

Número de Registro do Fornecedor (사업자등록번호)

Toda nota fiscal coreana deve exibir o número de registro comercial do fornecedor no formato XXX-XX-XXXXX — dez dígitos com dois hífens obrigatórios. Esse formato rígido dá à IA uma verificação de validação embutida: se o valor extraído não corresponder, o modelo relê o campo. Em notas eletrônicas limpas, a precisão da extração excede 98% — o formato fixo e a posição previsível no bloco de informações do fornecedor (공급자) tornam quase impossível a leitura errada. Em notas em papel, a precisão cai para 85–90% porque dígitos manuscritos falham na validação do formato.

Valor da Base de Cálculo e Valor do Imposto (공급가액 e 세액)

O IVA coreano é fixo em 10%, criando uma relação matemática que a IA explora: 세액 deve ser igual a 10% de 공급가액. Quando os números extraídos não se reconciliam, a IA reexamina o documento. Essa autoverificação — cruzando campos estruturados — é algo que o OCR tradicional não consegue fazer. A IA atinge 92–96% de precisão nesses campos financeiros essenciais, mesmo quando os rótulos em hangul ao redor são densos.

Data de Emissão e Informações do Fornecedor

As datas usam o formato AAAA-MM-DD — sem ambiguidade, sem confusão entre EUA e Europa. O nome da empresa do fornecedor (상호) e o representante (성명) ficam em blocos claramente identificados na seção 공급자. Em faturas eletrônicas, esses campos impressos por máquina são extraídos quase perfeitamente. Faturas em papel com hangul manuscrito — particularmente blocos de sílabas complexas como 됩 ou 괜 — introduzem erros de reconhecimento. Para mais sobre desambiguação de campos, veja como a IA distingue data da fatura de data de vencimento lendo o significado, não os rótulos.

JPG/PNG/PDF Extração por IA

Os arquivos são processados com segurança e não são armazenados.

Onde a IA Enfrenta Dificuldades com Notas Fiscais Coreanas

A diferença de precisão entre o formato eletrônico e o papel é real. Três desafios definem onde a IA falha em notas fiscais coreanas — dois deles exclusivos das convenções documentais coreanas.

Notas Fiscais Simplificadas Manuscritas (간이세금계산서)

Notas fiscais simplificadas — usadas por empresas com receita anual inferior a 48 milhões de won — são a categoria mais difícil. Esses recibos manuscritos vêm de fornecedores locais: uma gráfica, um vendedor de peças, um serviço de bufê. Espere 75–85% de precisão por campo — você ainda precisará verificar valores e números de registro. A IA reduz drasticamente o tempo de digitação manual, mas ainda não está no ponto de dispensar a verificação em 간이세금계산서 manuscritos.

Carimbos Manuais (도장)

Muitos documentos coreanos trazem um carimbo vermelho manual (도장) no lugar ou junto do nome impresso da empresa. A tinta vermelha frequentemente se sobrepõe ao texto impresso, e a IA não consegue extrair texto de dentro de um carimbo borrado de forma confiável. Se houver um nome de empresa impresso em outra parte do documento, a IA o utiliza. Se apenas o carimbo estiver disponível, insira-o manualmente.

Layouts de Campos Muito Densos

O layout obrigatório do governo é denso em informações — vários campos comprimidos em células de tabela apertadas, rótulos em Hangul alinhados a valores numéricos. Uma linha típica:

품명: 스테인리스볼트 M12 × 50mm | 수량: 500 | 단가: 1,200 | 공급가액: 600,000

Aqui, descrições de itens em coreano ficam imediatamente adjacentes a valores numéricos, sem espaços em branco além dos separadores de barra. A IA deve segmentar essa linha densa em campos constituintes — e uma leitura incorreta onde a quantidade se confunde com o preço unitário é o padrão de erro mais comum em notas fiscais coreanas. Isso não é um problema de reconhecimento de Hangul — é um problema de densidade de layout que o formato governamental rígido agrava.

Como Obter os Melhores Resultados na Extração de Notas Fiscais Coreanas

Cinco passos práticos que fazem uma diferença mensurável, baseados no que realmente funciona para documentos coreanos — não dicas genéricas de extração.

Priorize versões eletrônicas. Obtenha o PDF da 전자세금계산서 pelo e-Sero ou ERP do fornecedor — não uma cópia escaneada. Texto limpo gerado por máquina dá um ganho de 10 a 15 pontos percentuais de precisão sobre papel fotografado. Se seu fornecedor emite notas fiscais eletrônicas, peça o PDF diretamente.

Use nomes de campos semânticos em inglês para as colunas de extração. Defina colunas como "Supplier Registration Number", "Supply Value" e "Tax Amount" — não rótulos em coreano. A IA encontra esses conceitos semanticamente, seja o documento dizendo 공급가액, Supply Value ou apenas um número ao lado de 세액. Isso é Custom Column Extraction: você define o que quer, a IA encontra pelo significado.

Fotografe notas fiscais em papel de frente. Para 간이세금계산서, uma foto de celular tirada diretamente acima do documento com luz natural, preenchendo o quadro, faz mais diferença do que qualquer upgrade de modelo. Evite sombras sobre campos numéricos — uma sombra sobre um dígito do 사업자등록번호 cria ambiguidade que nenhum modelo consegue resolver.

Agrupe por formato ao processar em lote. Separe notas fiscais eletrônicas de 간이세금계산서 em papel em lotes diferentes. Aplique verificação rápida no lote eletrônico e revisão completa no lote de papel — você não está atrasando o processamento confiável ao misturá-los com documentos mais difíceis.

Verifique se valor da operação + imposto = total. O IVA fixo de 10% é sua auditoria embutida. Após a extração, verifique linhas onde 공급가액 × 0,1 ≠ 세액. Esses flags indicam exatamente quais documentos precisam de revisão — em notas fiscais eletrônicas, menos de 5% falham na reconciliação.

Exemplos Reais

Notas Fiscais Eletrônicas de Múltiplos Fornecedores (전자세금계산서)

Uma empresa comercial de Seul recebe mensalmente de 30 a 50 notas fiscais eletrônicas de fabricantes e prestadores de serviços logísticos por meio do e-Sero. Cada uma segue o formato padrão do governo. A IA extrai todos os campos principais com mais de 95% de precisão em todo o lote — o que levaria 90 minutos de digitação manual em Hangul produz uma planilha consolidada em menos de três minutos, pronta para importação no Douzone ou qualquer plataforma compatível com CSV.

Notas Fiscais Mistas: Eletrônicas e Simplificadas em Papel (간이세금계산서)

O escritório coreano de uma empresa estrangeira recebe notas fiscais eletrônicas de grandes fornecedores junto com notas simplificadas em papel (간이세금계산서) de fornecedores locais — uma gráfica, uma papelaria, um tradutor freelancer. As notas eletrônicas são extraídas com mais de 95% de precisão; as de papel, com 80%, sendo os valores manuscritos a principal fonte de erro. O fluxo de trabalho: processe tudo com IA em um único lote, verifique apenas as linhas das notas em papel — cinco minutos em vez de redigitar 15 notas do zero.

Perguntas Frequentes

A IA consegue diferenciar entre 공급가액 (valor da base de cálculo) e 합계금액 (valor total) em uma nota fiscal coreana?

Sim. O valor da base de cálculo (공급가액) aparece antes da linha do imposto, e o valor total (합계금액) aparece depois dela. Mesmo com rótulos totalmente em Hangul, a relação posicional e a restrição matemática (base + imposto = total) as diferenciam de forma confiável.

A IA funciona com notas fiscais coreanas manuscritas?

Parcialmente. Em notas simplificadas (간이세금계산서) manuscritas e legíveis, a IA extrai de 80 a 85% dos campos corretamente. Em notas borradas, com carbono ou muito carimbadas, a precisão cai ainda mais — verifique os campos-chave. Blocos complexos de sílabas Hangul (como 괜, 됩, 않) são os caracteres com maior taxa de erro.

A IA consegue lidar com conteúdo misto em coreano, inglês e números?

Sim — isso é padrão em notas fiscais coreanas, onde nomes de fornecedores podem estar em inglês enquanto as descrições dos itens estão em Hangul. A IA lida nativamente com scripts mistos porque os modelos de visão-linguagem leem a página de forma holística. O verdadeiro desafio é a densidade do layout — quando os três scripts se aglomeram em células de tabela apertadas.

E o carimbo vermelho (도장) nas faturas coreanas?

Não é confiável. O borrão da tinta vermelha dos carimbos manuais (도장) cria ambiguidade em nível de caractere que os modelos de visão atuais não conseguem resolver. Se houver um nome de empresa impresso em outro lugar no documento, a IA extrai de lá. Caso contrário, insira manualmente.

Uma fatura fiscal eletrônica (전자세금계산서) é mais fácil para a IA do que em papel?

Significativamente. As faturas eletrônicas e-Sero são PDFs gerados por máquina, com fontes consistentes e limites de campo claros — extraindo com 90–95%+ de precisão, comparável a faturas limpas em inglês. Faturas em papel, especialmente as manuscritas, extraem com 75–85%.

A IA pode usar a alíquota de 10% de IVA para verificação?

A IA não calcula o IVA — ela extrai valores impressos. Mas você pode verificar instantaneamente: se 세액 (valor do imposto) não for igual a 공급가액 (valor da base) × 0,1, provavelmente há um erro de extração. Isso captura o modo de falha mais comum — valores trocados ou lidos incorretamente — sem verificar visualmente cada linha.

Posso processar em lote faturas coreanas e não coreanas juntas?

Sim. A IA processa lotes em vários idiomas sem pré-configuração — faturas coreanas 전자세금계산서, japonesas 請求書 e inglesas são extraídas para a mesma planilha. Defina colunas em inglês ("Nome do Fornecedor", "Total da Fatura") e a IA localiza os valores independentemente do idioma do documento. Veja como a IA lida com extração multilíngue em diferentes escritas.

Conclusão

As faturas fiscais coreanas não são um caso excepcional — a padronização do governo favorece a IA. Faturas eletrônicas 전자세금계산서 extraem com precisão quase humana porque o layout é previsível, os campos são legalmente obrigatórios e o IVA fixo de 10% fornece detecção automática de erros. Faturas em papel 간이세금계산서 de pequenos fornecedores trazem desafios — caligrafia, carimbos, qualidade de fotocópia — mas mesmo com 80% de precisão, a IA transforma meia hora de digitação em coreano em uma verificação de cinco minutos.

A verdadeira questão não é "se a IA consegue ler faturas coreanas". É se sua mistura de faturas eletrônicas versus em papel torna isso um fluxo de trabalho automatizado ou uma ferramenta de produtividade com etapa de verificação. Para a maioria das empresas que lidam com fornecedores coreanos, é o segundo caso — e ainda assim uma melhoria de 10× em relação a digitar 사업자등록번호 um dígito de cada vez.

Teste em uma Fatura Fiscal Coreana →