한국 세금계산서 데이터를엑셀로 추출하는 방법

대한민국 국세청은 연간 6억 건 이상의 전자 세금계산서를 처리하며, 이는 국내 발행 세금계산서의 99%에 해당합니다. 하지만 이러한 세금계산서를 수취하는 재무팀에게 데이터 추출은 여전히 수동 작업에 의존하고 있습니다. 사업자등록번호, 공급가액, 세액을 PDF나 인쇄물에서 하나씩 스프레드시트에 옮겨 적는 방식입니다. 이 가이드에서는 세금계산서의 필수 입력 항목, 표준 OCR 도구가 이 작업에서 어려움을 겪는 이유, 그리고 분기별 부가세 신고를 위해 실제 필요한 데이터를 엑셀로 추출하는 방법을 설명합니다.

한국 세금계산서 데이터 엑셀 추출

핵심 요약

  1. 한국 세금계산서의 99%는 이미 전자 문서지만, 공급가액을 수동으로 엑셀에 옮겨 적는 AP 담당자는 그 진보를 전혀 체감하지 못합니다.
  2. 필수 입력 항목 7개, 수십 가지 공급업체 양식: 홈택스, 팝빌, 바로빌, 더존 각각 사업자등록번호와 부가세 위치가 달라 템플릿 기반 도구는 공급업체마다 새 설정이 필요합니다.
  3. ImageToTable.ai는 공급가액을 픽셀 좌표가 아닌 개념으로 읽습니다. 하나의 열 정의로 모든 공급업체의 세금계산서를 동일한 스프레드시트로 추출하며, 공급업체별 설정이 필요 없습니다.

세금계산서 vs 일반 계산서: 세금계산서를 정의하는 7가지 필수 항목

세금계산서는 부가가치세 항목이 추가된 일반 상업송장이 아닙니다. 대한민국 부가가치세법 제32조에서 법적으로 규정된 문서 형식이며, 각 항목은 특정 신고 목적을 수행합니다. 한국 공급업체의 세금계산서에서 데이터를 엑셀로 추출할 때(매입처리, 부가세 신고 준비, ERP 가져오기 등) 이러한 필수 항목을 이해하는 것이 선행되어야 합니다.

제32조에 따라 세금계산서에는 다음 정보가 포함되어야 합니다. 발행된 계산서에서 이 중 하나라도 누락되면 공급자는 공급가액의 최대 2%에 해당하는 가산세를 부과받을 수 있습니다:

#필드 (영문)필드 (한글)추출 시 중요한 이유
1공급자 등록번호공급자 등록번호10자리 사업자등록번호 (형식: XXX-XX-XXXXX). ERP에서 공급자 매칭의 기본 키입니다.
2상호 / 대표자명상호 / 성명회사명 + 대표자명. 종종 다른 글꼴 크기로 인쇄됩니다.
3공급받는자 등록번호공급받는자 등록번호귀하의 사업자등록번호 — 대사(Reconciliation)를 위해 귀하의 기록과 일치하는지 확인해야 합니다.
4공급가액공급가액VAT 이전 순 금액. 부가세 신고 계산의 기준이 됩니다.
5세액세액공급가액의 10%. 공급가액 × 10%와 정확히 일치해야 하며, 불일치는 오류로 표시됩니다.
6작성일자작성일자해당 세금계산서가 속하는 분기별 부가세 신고 기간을 결정합니다.
7품목 / 수량 / 단가품목 / 수량 / 단가항목별 세부 정보. 간이세금계산서에서는 선택 사항이나, 일반 세금계산서에서는 표준입니다.

이 7가지 핵심 필드 외에도, 국세청 홈택스 시스템을 통해 발행된 전자세금계산서에는 국세청승인번호가 추가로 기재됩니다. 이는 세무 당국이 부여한 고유 식별번호로, 계산서가 정상적으로 전송되었음을 확인해 줍니다. 2023년 7월부터 연 매출 1억 원 이상인 모든 사업자는 전자 발행이 의무화되었으므로, 대부분의 세금계산서에 이 번호가 포함되어 있습니다.

데이터 추출 측면에서 보면, 세금계산서 한 장에는 최소 7개의 개별 데이터 항목이 있으며, 이들은 각각 별도의 엑셀 열에 입력되어야 합니다. 특히 두 개의 등록번호는 엄격한 형식을 따르며, 공급가액과 부가세는 산술 검증이 필요합니다. 이것이 여러분이 다루게 될 문서 구조이며, 단순히 '스캔해서 덤프'하는 방식으로는 제대로 된 결과를 얻기 어려운 이유이기도 합니다.

필드를 이해하는 것이 첫 단계입니다. 다음 질문은, 왜 이 데이터를 문서에서 깔끔하게 추출하는 것이 생각보다 어려운가 하는 점입니다.

한국 세금계산서에서 복사-붙여넣기와 일반 OCR이 실패하는 이유

한국 세금계산서는 일반 OCR 도구와 수동 복사-붙여넣기 방식이 제대로 처리하지 못하는 세 가지 특정 문제점을 제시합니다. 이러한 문제는 여러 공급업체의 세금계산서를 처리할 때 더욱 복잡해집니다.

문제 1: 한글과 숫자가 혼합된 텍스트. 일반적인 세금계산서에는 한글(회사명, 품목 설명), 아라비아 숫자(사업자등록번호, 금액), 때로는 영어 약어가 동일한 시각적 영역 내에 포함됩니다. 단일 언어 문서에 최적화된 표준 OCR 엔진은 숫자와 가까이 있는 한글 문자를 잘못 읽어 유사한 문자를 혼동하거나 쉼표로 구분된 한글 금액을 잘못 해석하는 등 왜곡된 결과를 생성하는 경우가 많습니다.

문제 2: 표준화되지 않은 필드 위치. 세금계산서의 내용은 법적으로 표준화되어 있지만 레이아웃은 그렇지 않습니다. 홈택스를 통해 발행된 전자세금계산서는 인식 가능한 두 패널 구조(왼쪽 공급자, 오른쪽 구매자)를 따릅니다. 그러나 Popbill(팝빌), Barobill(바로빌)과 같은 타사 ASP 서비스를 통해 발행된 세금계산서나 Douzone Bizon(더존비즈온)의 ERP 생성 세금계산서는 동일한 필드를 다른 위치, 글꼴 크기 및 표 구조로 배열할 수 있습니다. 필드 위치를 찾기 위해 사전 정의된 영역에 의존하는 템플릿 기반 OCR은 각 레이아웃 변형에 대해 별도의 템플릿이 필요합니다.

도전 과제 3: 공급가액 / 부가세 / 합계금액 검증의 함정. 올바르게 발행된 세금계산서에서 세 가지 하단 금액은 엄격한 관계를 따릅니다: 합계금액 = 공급가액 + 세액. 수동 입력 시 한 자리 숫자가 잘못 입력되면(예: ₩3,004,000을 ₩3,040,000으로 기재) 오류가 부가세 신고에 조용히 전파됩니다. 국세청이 납세자의 신고를 공급자가 전송한 데이터와 대조할 때까지 이를 발견하지 못할 수 있으며, 이는 조회나 조정 통지로 이어질 수 있습니다.

국세청 데이터에 따르면, 전자 발행으로 종이 계산서 준수 비용이 연간 약 9,000억 원 절감되었습니다. 하지만 마지막 단계 문제, 즉 전자 계산서에서 데이터를 자체 시스템으로 가져오는 작업은 여전히 AP 담당자의 책상 위에 남아 있습니다.

여기서 템플릿 기반 추출과 의미 기반 추출의 차이가 중요해집니다. 템플릿 기반 도구는 각 필드 주위에 사각형을 그리고 좌표를 저장하도록 요구합니다. 모든 계산서가 한 공급업체의 단일 형식에서 오는 경우에는 작동하지만, 수십 개 공급업체로부터 세금계산서를 받을 때는 비현실적입니다. 의미 기반 추출(비전-언어 모델이 사용하는 접근 방식)은 사람처럼 문서를 읽습니다. 즉, 공급가액 레이블 옆의 숫자가 페이지의 어디에 나타나든 공급가액임을 이해합니다.

도전 과제를 정의했으니, 이제 실제 추출 워크플로우를 살펴보겠습니다.

단계별 가이드: 세금계산서 필드를 엑셀로 추출하기

ImageToTable.ai는 사용자 정의 열 추출 기능을 사용하여 모든 문서 레이아웃에서 특정 필드를 가져옵니다. 핵심 아이디어: 템플릿에 필드 좌표를 매핑하는 대신, 원하는 열 이름을 한글이나 영어로 입력하면 AI가 페이지상의 위치가 아닌 각 필드 레이블의 의미를 이해하여 해당 값을 찾아냅니다. 입력한 열 이름은 출력 스프레드시트의 정확한 헤더가 됩니다.

1

세금계산서 파일 업로드

홈택스 PDF, 스캔한 종이 세금계산서(JPG/PNG), 이메일 캡처 등 하나 또는 여러 개의 세금계산서 파일을 업로드하세요. PDF, JPG, PNG, WebP 형식을 지원합니다. 여러 파일을 한 번에 업로드하면 결과가 하나의 스프레드시트로 합쳐집니다.

2

추출할 항목(컬럼) 정의

스프레드시트에 필요한 필드명을 입력하세요. 한글, 영문, 혼용 모두 가능합니다. 표준 세금계산서 추출에 권장하는 컬럼 세트는 다음과 같습니다:

  • 작성일자 — 발행일
  • 공급자 사업자등록번호 — 공급자 등록번호
  • 공급자 상호 — 공급자 회사명
  • 공급받는자 사업자등록번호 — 공급받는자 등록번호
  • 공급가액 — 공급가액(VAT 제외)
  • 세액 — 부가세액
  • 합계금액 — 총 금액
  • 국세청승인번호 — 국세청 승인번호(전자세금계산서)
3

엑셀 생성 및 다운로드

추출을 클릭하세요. 각 세금계산서는 출력 스프레드시트에서 한 행으로 생성되며, 열 이름이 헤더로 사용됩니다. 단일 페이지 세금계산서는 보통 5~10초 내에 처리됩니다. 출력 파일은 XLSX, CSV 또는 JSON 형식으로 다운로드되며, 회계 시스템으로 가져오거나 Excel에서 추가 분석할 준비가 되어 있습니다. 한국 세금계산서 외의 필드 수준 인보이스 추출에 대한 자세한 안내는 인보이스 필드를 스프레드시트로 추출하는 방법을 참조하세요.

한국 세금계산서에 특히 유용한 두 가지 기능이 있습니다. 첫째, 추론 열을 사용하면 인보이스에 명시적으로 인쇄되지 않은 데이터에 대한 열을 추가할 수 있습니다. 예를 들어, 부가세 신고기간 (옵션: 1분기/2분기/3분기/4분기)라는 열을 추가하면 AI가 작성일자를 읽고 해당 분기 부가세 신고기간(1~3월 = 1분기, 4~6월 = 2분기, 7~9월 = 3분기, 10~12월 = 4분기)을 판단하여 기간 레이블을 채워 넣습니다. 이렇게 하면 엑셀에서 수동 VLOOKUP 단계를 절약할 수 있습니다. 둘째, 계산 열은 산술 검증을 수행할 수 있습니다. 부가세 확인 (공급가액 × 0.1 = 세액?)이라는 열은 "OK" 또는 차액을 출력하여 숫자가 맞지 않는 인보이스를 부가세 신고 전에 식별해 줍니다.

아래에서 로그인 없이 직접 세금계산서를 테스트해 보세요:

JPG/PNG/PDF AI 추출

파일은 안전하게 처리되며 저장되지 않습니다.

한 장의 세금계산서는 간단합니다. 실제 테스트는 부가세 신고 마감 전에 여러 장을 한 번에 처리하는 것입니다.

분기별 부가세 신고 마감 전, 수백 건의 세금계산서 한 번에 처리하기

한국 부가가치세 신고는 분기별로 이루어지며, 각 분기 종료 후 다음 달 25일(1분기 4월 25일, 2분기 7월 25일, 3분기 10월 25일, 4분기 1월 25일)까지 신고해야 합니다. 마감일이 다가오는 몇 주 동안, 특히 외부 세무사 사무실을 이용하는 중견기업의 AP팀은 모든 공급업체의 세금계산서를 하나의 데이터셋으로 통합하여 국세청 전자세금계산서 기록과 대조해야 하는 시간적 압박을 받습니다.

처리해야 할 양도 만만치 않습니다. 매월 세금계산서를 발행하는 30~50개의 거래처를 보유한 기업은 분기당 90~150장의 세금계산서를 처리합니다. 협력업체와 자재 공급업체를 상대하는 건설사나 무역회사의 경우 300~500장에 달할 수 있습니다. 수동 입력 시 건당 3분이 소요된다면, 300장의 세금계산서를 처리하는 데 15시간의 집중 데이터 입력 작업이 필요하며, 이는 일반적으로 신고 마감일 전 마지막 주에 집중됩니다.

일괄 처리는 이러한 계산을 완전히 바꿔놓습니다. 홈택스에서 다운로드한 PDF, 각 공급업체의 이메일 첨부 파일, 스캔한 종이 문서 등 모든 세금계산서를 한 번에 업로드하세요. 모든 파일에 동일한 열 정의가 적용됩니다. 결과는 하나의 엑셀 파일로 병합되며, 계산서당 한 행씩, 시간순으로 정렬됩니다. 페이지당 5~10초가 소요되므로, 300장의 세금계산서는 수동 재입력 없이 1시간 이내에 처리됩니다.

바로 여기서 템플릿 방식보다 의미 기반 추출 방식의 가치가 드러납니다. 300장의 세금계산서는 수십 개의 공급업체에서 발행되었을 가능성이 높으며, 각각 홈택스, 팝빌, 바로빌, 또는 자체 더존 ERP를 통해 발행되어 미세하게 다른 레이아웃을 사용합니다. 템플릿 기반 도구는 각 레이아웃마다 별도의 설정이 필요합니다. 반면, 커스텀 열 추출은 필드 레이블(공급가액, 부가세액, 사업자등록번호)을 읽기 때문에 모든 변형에서 동일한 열 이름을 사용할 수 있습니다.

배치 실행 시 유용한 팁: 파일 이름 열을 추가하세요. 도구가 각 행에 원본 파일 이름을 자동으로 채워주므로, 검토 중 숫자가 이상해 보일 경우 추출된 값을 원본 문서까지 쉽게 추적할 수 있습니다. 더 깊은 추적이 필요하다면 송장 데이터 배치 추출에 대한 광범위한 접근 방식도 알아보세요.

엑셀에서 더존, 이카운트, SAP 코리아로

세금계산서 데이터를 엑셀로 추출하는 것은 거의 마지막 단계가 아닙니다. 대부분의 한국 기업의 경우 데이터가 ERP나 회계 시스템으로 흘러들어가야 하며, 한국 시장은 국내 공급업체가 지배하는 독특한 소프트웨어 환경을 가지고 있습니다.

더존비즈온은 대한민국에서 선도적인 국내 ERP 및 회계 플랫폼으로, 중소기업 및 세무 회계 부문에서 가장 큰 시장 점유율을 차지하고 있습니다. 클라우드 기반 중소기업용 WEHAGO, 중견기업용 iCUBE, 세무 회계 법인용 Smart A 등 모든 제품은 특정 열 매핑이 있는 구조화된 가져오기 파일을 필요로 합니다. ImageToTable.ai에서 추출한 엑셀은 더존의 가져오기 템플릿에 맞게 재구성될 수 있습니다. 일반적으로 사업자등록번호를 기본 공급자 키로, 공급가액과 부가세액을 별도의 숫자 열로, 발행일자를 YYYY-MM-DD 형식으로 지정합니다.

이카운트 ERP는 한국 중소기업 사이에서 인기가 많으며, AP 거래에 대한 CSV/엑셀 가져오기를 지원합니다. 가져오기 형식은 공급자 등록번호, 전자세금계산서 발행일자, 품목, 금액, 부가세를 별도의 열로 예상하며, 이는 이 가이드에서 설명한 추출 열 세트에 직접 매핑됩니다.

SAP 코리아는 대기업을 대상으로 하며, 일반적으로 FI(재무회계) 모듈을 통한 데이터 매핑이 필요합니다. 추출된 엑셀은 SAP의 LSMW 또는 BDC 도구를 통한 일괄 업로드 전에 중간 스테이징 파일 역할을 할 수 있습니다.

어떤 시스템을 사용하든 핵심 원칙은 동일합니다. 처음부터 ERP에서 요구하는 가져오기 필드에 맞게 추출 열을 정의하세요. Douzone 가져오기 템플릿에 사업자등록번호 대신 거래처코드 열이 필요하다면, 추출 열 이름을 그에 맞게 지정하세요. AI는 열 이름이 아닌 문서상의 필드 의미를 기준으로 값을 추출하므로, 추가 매핑 단계 없이 바로 가져올 수 있는 형식으로 출력됩니다.

송장 추출이 AP 자동화 워크플로우에 어떻게 적용되는지 더 자세히 알아보려면 송장 데이터 추출 완벽 가이드를 참조하세요.

자주 묻는 질문

전자세금계산서와 종이 세금계산서를 모두 읽을 수 있나요?

네. 홈택스에서 PDF로 다운로드한 전자세금계산서와 JPG 또는 PNG로 스캔한 종이 세금계산서를 모두 지원합니다. AI는 문서가 원래 어떻게 생성되었는지와 관계없이 문서의 시각적 내용을 읽습니다. 인쇄 품질이 선명한 스캔 문서는 디지털 원본 PDF와 동일한 추출 정확도를 제공합니다. 일반 스캔 조건에서 인쇄된 표 데이터의 경우 최대 99% 정확도를 보입니다.

라인 항목을 추출하나요, 아니면 세금계산서 수준 합계만 추출하나요?

둘 다 가능합니다. 라인 항목 필드(품목, 수량, 단가, 공급가액)에 대한 열을 정의하면 항목당 한 행이 생성됩니다. 세금계산서 수준 필드(공급가액 합계, 부가세액, 총액)만 정의하면 세금계산서당 한 행이 생성됩니다. 선택은 원가 회계를 위한 항목별 세부 정보가 필요한지, 부가세 신고를 위한 합계만 필요한지에 따라 달라집니다.

사업자등록번호(XXX-XX-XXXXX)는 어떻게 처리하나요?

10자리 사업자등록번호는 하이픈이 포함된 형식 그대로 추출됩니다. ERP 가져오기 시 하이픈 없는 번호가 필요하면, 계산 열을 추가하여 서식을 제거하는 규칙을 적용하거나, 출력물에서 Excel의 SUBSTITUTE 함수를 사용해 한 번에 대시를 제거할 수 있습니다.

국세청 승인번호는 어떻게 처리하나요?

국세청 승인번호는 전자세금계산서에 긴 영숫자 코드(보통 XXXXXXXX-XXXXXXXX 형식)로 표시됩니다. 이를 열 이름으로 추가하면 다른 필드와 함께 추출됩니다. 이 번호는 홈택스 기록과 대조하여 특정 세금계산서가 국세청에 정상 전송되었는지 확인하는 데 유용합니다.

동일 배치에서 한국어와 다른 언어의 인보이스를 함께 처리할 수 있나요?

네. 한국어 세금계산서와 해외 공급업체(예: 영어, 일본어, 중국어 인보이스)의 인보이스를 동일 배치에 포함할 수 있습니다. AI는 200개 이상의 언어를 기본 지원합니다. 한국어 인보이스의 열 이름은 한국어 필드와 일치하며, 동일 배치의 비한국어 인보이스의 경우 AI가 동등한 필드 개념(예: "공급가액"이 공급가액 필드와 일치)을 매핑합니다. 국가별 가이드는 일본 적격 인보이스 추출, 독일 Rechnung 추출, 또는 멕시코 CFDI 추출을 참조하세요.

추출된 데이터로 부가세 신고가 가능한가요?

추출된 엑셀 파일에는 부가세 신고 준비에 필요한 원천 데이터(공급가액, 부가세액, 공급자/공급받는자 사업자등록번호, 일자)가 포함되어 있습니다. 다만, 국내 부가세 신고는 홈택스 또는 세무사/회계 프로그램(더존, 이카운트 등)을 통해 진행됩니다. 추출 결과물은 신고 절차를 위한 구조화된 입력 자료로, 국세청에 직접 제출하는 용도가 아닙니다. 미국 세금 양식과 국내 세금계산서를 함께 처리하는 경우, W-2 및 1099 세금 양식 데이터 추출 가이드를 참고하세요.

다음 부가세 신고 준비 과정을 확인해보세요

세금 계산서를 수령한 후 ERP에 깔끔하고 구조화된 데이터로 정리되기까지의 과정에서 분기마다 수많은 시간이 사라집니다. 30장이든 300장이든, 데이터 추출 단계는 몇 분이면 충분해야 하며 며칠이 걸려서는 안 됩니다. 세금 계산서(실제 또는 샘플)를 업로드하면 첫 번째 시도에서 필드가 올바른 열에 자리 잡는 것을 확인할 수 있습니다.

세금 계산서로 무료 체험하기 — 가입 불필요

📮 contact email: [email protected]