송장 데이터 추출이란?
작동 방식과 중요성
송장 데이터 추출은 PDF 또는 스캔된 송장에서 송장 번호, 날짜, 공급업체명, 라인 항목과 같은 주요 필드를 자동으로 읽어 스프레드시트나 회계 시스템에서 구조화된 데이터로 출력하는 프로세스입니다. 사람이 각 파일을 열고 QuickBooks나 Excel에 값을 하나씩 입력하는 대신, 추출 소프트웨어가 읽기와 데이터 입력을 몇 초 만에 수행합니다.
핵심 요약
- 송장당 $22 — 월 575건의 송장 기준, 수동 데이터 입력의 총비용은 이를 수행하는 직원의 급여를 초과합니다.
- 템플릿 기반 추출 도구는 작업을 없애지 않고 이름만 바꿉니다: 공급업체가 송장 디자인을 변경하면 조용히 깨지는 300개 이상의 형식 규칙을 유지해야 합니다.
- 해결책은 더 나은 템플릿이 아닙니다 — 위치 대신 의미로 읽는 추출 방식이므로 새 레이아웃에 대해 영역을 그리거나 모델을 재교육할 필요가 없습니다.
송장 데이터 추출의 실제 의미
송장 데이터 추출은 송장을 스캔하거나 OCR을 실행하는 것과 다릅니다. 스캔은 이미지를 제공하고, OCR은 텍스트 덩어리를 제공합니다. 추출은 구조화된 데이터를 제공합니다: 송장 번호는 한 열에, 공급업체명은 다른 열에, 각 품목은 자체 행에, 합계는 Excel에서 합산 가능한 셀에 담깁니다.
핵심 작업은 매우 다양한 레이아웃에서 필드 수준 인식입니다. 한 공급업체는 송장 번호를 오른쪽 상단에 INV-2026-00471로 배치합니다. 다른 업체는 문서 번호: 접두사와 함께 표 헤더에 숨깁니다. 또 다른 업체는 배송 주소 옆 QR 코드 블록에 넣습니다. 인간 사무원은 "송장 번호처럼 보이는 문자열"을 찾는 법을 압니다. 그 위치가 아니라 송장 번호가 의미하는 바를 이해하기 때문입니다. 이러한 의미적 이해가 현대 추출 도구가 재현하는 것입니다.
송장에서 일반적으로 추출되는 필드는 두 가지 범주로 나뉩니다:
헤더 필드 (송장당 1개)
- 송장 번호
- 송장일 및 납기일
- 공급업체명 및 주소
- 구매 주문 번호
- 결제 조건
- 소계, 세금, 총액
- 통화
품목 (여러 행)
- 상품/서비스 설명
- 수량
- 단가
- 행 합계
- 행별 세금 (해당 시)
품목이 어려운 부분입니다. 헤더 필드는 단일 값입니다. 품목 표는 여러 페이지에 걸칠 수 있는 전체 하위 구조로, 공급업체 간, 때로는 동일 공급업체 내 부서 간에도 열 배열이 다릅니다. 품목을 올바르게 추출하는 것이 사용 가능한 추출과 여전히 수동 정리가 필요한 부분적 결과를 구분짓는 요소입니다.
송장 데이터 추출 vs 송장 처리 vs OCR — 핵심 차이점
이 세 용어는 혼용되곤 하지만, 각각 다른 것을 가리킵니다. 이를 혼동하면 잘못된 문제를 해결하는 도구를 구매하게 됩니다.
OCR(광학 문자 인식)은 텍스트 이미지를 기계가 읽을 수 있는 문자로 변환합니다. "이 페이지에 어떤 문자가 있는가?"라는 질문에는 답하지만, "이 문자열 중 어느 것이 송장 번호인가?"라는 질문에는 답하지 못합니다. 필드, 의미, 문서 구조에 대한 개념이 없습니다. OCR 출력 페이지는 차별화되지 않은 텍스트 덤프에 불과합니다. 원재료로는 유용하지만, 누군가 구조화하기 전까지는 재무 데이터로서 쓸모가 없습니다.
송장 처리는 추출을 둘러싼 전체 AP 워크플로우입니다. 송장 수신, 적절한 GL 계정 코딩, 승인 라우팅, 구매 주문서 매칭, 지불 일정 수립, 기록 보관 등이 포함됩니다. Stampli, Tipalti, AvidXchange와 같은 처리 도구는 워크플로우를 관리하지만, 여전히 송장 데이터가 시스템에 입력되어야 합니다. 그 입력이 바로 추출입니다.
송장 데이터 추출은 PDF 송장을 구조화된 필드로 변환하는 특정 단계입니다. "받은 편지함의 파일"과 "회계 시스템의 데이터" 사이의 다리 역할을 합니다. 세계적 수준의 AP 워크플로우 자동화를 갖추었더라도, 추출 단계에서 잘못된 데이터를 공급한다면 워크플로우는 단지 실수를 더 빠르게 자동화할 뿐입니다.
이러한 구분은 문서 데이터 캡처 방식의 더 큰 변화의 일부입니다. 템플릿 기반 OCR에서 AI 기반 의미 추출로의 전환입니다. 문서 유형 전반에 대한 전체 그림은 AI 문서 추출 가이드를 참조하세요.
송장 데이터 추출 작동 방식
원클릭 인터페이스 뒤에는 지난 2년 동안 근본적으로 변화한 파이프라인이 있습니다.
기존 방식 — 템플릿 매칭. 기존 추출 도구(그리고 2023년 이전의 대부분 OCR 기반 AP 플랫폼)는 위치 기반으로 작동합니다. 한 공급업체의 레이아웃에서 "송장 번호" 주위에 사각형을 그리고 "값은 오른쪽으로 2인치 떨어져 있습니다"라고 시스템에 알려줍니다. 모든 공급업체, 모든 레이아웃 변형, 모든 필드에 대해 이 작업을 반복합니다. 문제는 명확합니다. 200개의 활성 공급업체가 있는 중견 기업은 300개 이상의 형식 변형에 직면할 수 있습니다. 해당 템플릿 라이브러리를 구축하고 유지 관리하는 것은 전일제 작업이 됩니다. 설상가상으로 공급업체가 송장을 재설계하면(새 로고 배치, 다른 열 순서) 템플릿이 조용히 깨져 잘못된 값을 잘못된 필드에 추출하기 시작합니다.
현대적 방식 — 의미 추출. 최신 AI 기반 추출은 위치가 아닌 의미로 작동합니다. 각 필드가 어디에 있는지 시스템을 훈련시키는 대신, 찾고자 하는 것을 지정합니다: "송장 번호", "공급업체 이름", "라인 합계". AI는 전체 문서를 읽고, 각 텍스트 조각이 문맥상 무엇을 나타내는지 이해한 후, 올바른 출력 열에 매핑합니다. 이를 사용자 정의 열 추출이라고도 합니다. 원하는 출력 열을 정의하면 AI가 템플릿의 위치가 아닌 각 필드의 의미를 이해하여 페이지 어디에서든 일치하는 데이터를 찾습니다.
이러한 위치 기반에서 의미 기반으로의 전환 덕분에 추출이 "3개월 설정 후 송장의 80%에 대해 작동"에서 "첫날부터 95% 이상 작동"으로 발전했습니다. 또한 동일한 시스템이 SAP의 깔끔하게 포맷된 디지털 PDF와 손으로 쓴 계약자 송장의 전화 사진을 동등하게 쉽게 처리하는 이유이기도 합니다. AI는 레이아웃을 사용하지 않기 때문에 레이아웃에 신경 쓰지 않습니다.
파이프라인은 처음부터 끝까지 다음과 같습니다:
업로드
PDF, 스캔본, 사진을 단일 또는 일괄로 드래그 앤 드롭하세요. 사전 분류나 이름 변경, 특정 형식 요구사항 없이 읽을 수 있기만 하면 됩니다.
열 정의
추출하려는 필드명을 입력하세요 — "송장 번호", "공급업체", "마감일", "항목 합계" 등. 이 값들이 출력 스프레드시트의 헤더가 됩니다. 템플릿 설정, 학습, 영역 지정이 필요 없습니다.
AI 읽기 및 매핑
비전 모델이 각 페이지를 스캔하여 텍스트 블록의 의미적 역할을 이해하고 해당 필드를 사용자가 정의한 열에 매핑합니다. 페이지 내 위치와 관계없이 작동합니다.
구조화된 데이터 내보내기
Excel(XLSX), CSV, JSON 형식으로 다운로드하거나 Google Sheets에 직접 작성하세요. 각 송장은 한 행으로 표시되며, 라인 항목은 헤더 필드가 반복된 별도 행으로 확장되어 필터링과 피벗 테이블에 활용됩니다.
파일은 안전하게 처리되며 저장되지 않습니다.
송장 데이터 추출이 필요한 경우
모든 비즈니스에 추출 소프트웨어가 필요한 것은 아닙니다. 한 달에 6장의 송장을 받는 프리랜서는 커피 한 잔 마시는 동안 스프레드시트에 직접 입력할 수 있습니다. 추출이 가치를 발휘하는 시점은 수작업 입력이 단순한 불편을 넘어 몇 달에 걸쳐 누적되는 병목 현상이 되는 임계점을 넘을 때입니다.
가장 일반적인 네 가지 임계점은 다음과 같습니다.
1. 송장 물량이 인력을 초과하는 경우. IOFM 인력 기준에 따르면, 최고 성과를 내는 AP 부서는 정규직 1인당 연간 약 6,900장(월 약 575장)의 송장을 처리합니다. 평균 성과 부서는 정규직 1인당 연간 4,200장을 처리합니다. 현재 팀이 감당할 수 있는 수준을 넘어서면 선택지는 세 가지입니다: 추가 인력 고용(완전 부담 비용 $45,000~$65,000), 기존 직원에게 더 빠른 작업 요구(오류율 증가), 또는 인력 증원 없이 처리량을 늘리는 추출 도구 사용. 세 번째 옵션의 효용은 특히 APQC 벤치마크에서 수동 처리 비용이 송장당 $10~$22인 반면 자동화 방식은 $3 미만으로 낮아진다는 점을 고려하면 매우 빠르게 설득력을 얻습니다.
2. 모든 공급업체가 다른 송장 형식을 사용하는 경우. 이것은 보편적인 현실입니다. 동일한 ERP(예: SAP)를 사용하는 두 공급업체라도 관리자가 다른 출력 템플릿을 구성했기 때문에 송장 모양이 완전히 다릅니다. 활성 공급업체가 50개 이상인 경우, 형식 다양성만으로도 템플릿 기반 접근 방식은 실용적이지 않습니다. 의미 기반 추출은 형식에 의존하지 않기 때문에 이 문제를 해결합니다. 파싱 템플릿 라이브러리를 유지 관리하면서 공급업체가 레이아웃을 변경할 날을 두려워했다면, 이미 이 임계점을 넘은 것입니다. 단지 아직 적절한 도구가 없었을 뿐입니다.
3. 헤더 합계뿐만 아니라 라인 항목 세부 정보가 필요한 경우. 많은 추출 도구는 송장 번호, 날짜, 합계와 같은 헤더 필드를 잘 처리합니다. 그러나 비용 배분, 재고 조정 또는 지출 분석을 위해 라인 항목(개별 제품 설명, 수량, 단가)이 필요하다면 도구 요구 사항이 더 엄격해집니다. 송장당 30개의 라인 항목을 수동으로 입력해야 하는 헤더 전용 추출은 실제로 시간을 많이 절약해주지 않습니다. 이것은 팀이 현재 도구나 수동 프로세스가 문제의 절반만 해결하고 있음을 깨닫는 가장 일반적인 지점입니다. 라인 항목 추출에 대한 자세한 내용은 송장 필드 자동 추출 가이드를 참조하세요.
4. AP 팀이 월말 마감의 병목 지점인 경우. 재무 팀이 AP의 송장 입력 완료를 기다려야 장부를 마감할 수 있다면, 추출은 생산성 도구를 넘어 일정 종속 항목이 됩니다. APQC 벤치마크에 따르면 최고 성과 조직은 송장 접수부터 지급까지 2.8일이 소요되는 반면, 하위 성과 조직은 1주일 이상 걸립니다. 그 차이는 직원이 느리게 일해서가 아니라 데이터 입력 단계가 모든 후속 프로세스가 기다리는 직렬 병목 현상이기 때문입니다. 일괄 추출은 이 직렬 병목 현상을 병렬 작업으로 전환합니다: 모든 것을 한 번에 업로드하고, 몇 분 안에 구조화된 데이터를 얻은 후, 승인 및 지급이 데이터 입력 속도와 무관하게 진행되도록 합니다. 일괄 워크플로에 대한 실용적인 안내는 일괄 송장 추출 가이드를 참조하세요.
송장 추출 도구 선택 시 확인할 사항
추출 도구는 기본 OCR 래퍼부터 AI 기반 플랫폼까지 다양하며, 기능 목록은 언뜻 보면 모두 비슷해 보입니다. 실제 사용에서 차이를 만드는 기준은 다음과 같습니다.
템플릿 불필요. 이것이 가장 중요한 차별점입니다. 공급업체 형식별로 파싱 템플릿을 만들고 유지 관리해야 하는 도구는 추출이 아니라 템플릿 관리에 추출이 약간 곁들여진 것입니다. 공급업체에 물어봐야 할 질문: "내일 공급업체가 송장 레이아웃을 변경하면 어떻게 해야 합니까?" 답변이 템플릿 업데이트, 모델 재학습 또는 필드 재매핑을 포함한다면, 이는 솔루션이 아닌 유지 관리 부담을 구매하는 것입니다. 이것이 중요한 이유에 대한 자세한 내용은 모든 송장 PDF에서 특정 필드 추출에 대해 읽어보세요.
라인 항목 추출 품질. 헤더 필드를 안정적으로 추출하는 도구는 기본입니다. 라인 항목, 특히 일관되지 않은 열 레이아웃이 있는 여러 페이지 송장에서의 추출이 진정한 시험대입니다. 페이지 나누기에 걸쳐 있는 15개 행의 라인 항목 테이블이 있는 3페이지 송장에서 도구를 테스트해 보세요. 이를 깔끔하게 처리한다면 다른 모든 것도 처리할 수 있을 것입니다.
일괄 처리 기능. 50개의 송장을 한 번에 업로드하여 하나의 통합 스프레드시트로 받을 수 있습니까? 아니면 하나씩 처리해야 합니까? 일괄 처리는 "이 도구가 내 시간의 80%를 절약해 준다"와 "이 도구가 송장당 시간의 80%를 절약해 주지만, 절약한 시간을 도구 관리에 쓴다"의 차이를 만듭니다.
출력 형식 및 통합. 출력은 작업 흐름과 일치해야 합니다. 모든 것을 Excel로 처리한다면, 적절한 유형의 열이 있는 XLSX 내보내기는 필수입니다. AP가 Google Sheets를 통해 흐른다면, 송장 추출용 Google Sheets 애드온과 같이 결과를 시트에 직접 쓰는 도구는 업로드-다운로드-가져오기 주기를 완전히 없앱니다. 데이터를 ERP나 사용자 정의 시스템에 공급하는 경우 CSV와 JSON이 중요합니다.
예외 처리. 다중 통화 송장. 세금 포함 vs 세금 제외 라인 합계. 라인 수준 vs 송장 수준에서 적용된 할인. 송장 형식의 대변 메모. 송장의 95%를 처리하지만 약간 특이한 5%에서 조용히 실패하는 도구는 자신이 할 수 있는 것과 없는 것에 대해 솔직한 도구보다 더 큰 위험을 만듭니다. 가장 깔끔한 송장이 아닌 가장 이상한 송장으로 도구를 테스트하세요.
자주 묻는 질문
손으로 작성된 송장도 추출이 가능한가요?
가능하지만 조건이 있습니다. 텍스트 전용 OCR이 아닌 비전 기반 모델을 사용하는 최신 AI 추출 도구는 송장의 필기체(포함)를 읽을 수 있습니다. 정확도는 필기 가독성에 따라 달라집니다. 깔끔한 인쇄체는 90% 이상, 저조도 사진의 빽빽한 필기체는 더 낮습니다. 여기서 의미 기반 추출의 핵심 장점은 AI가 필드 컨텍스트를 사용하여 모호성을 해소한다는 점입니다. 예를 들어 '총 금액'을 찾고 있고 페이지에 '$1,250.00'와 '1250.00'가 모두 보이면, 미리 정의된 영역에서 텍스트를 가져오는 대신 실제 총액이 무엇인지 추론할 수 있습니다.
하나의 송장에 여러 통화가 있는 경우에도 추출이 가능한가요?
네, 위치 기반 추출이 아닌 의미 기반 이해를 사용하는 도구라면 가능합니다. 국제 송장에는 USD와 EUR 금액이 모두 표시되거나, 공급업체 현지 통화로 된 소계와 귀하의 통화로 변환된 금액이 함께 나열될 수 있습니다. 위치 기반 도구는 '예상 위치'에 있는 통화 값을 무조건 가져올 수 있습니다. 반면 의미 기반 도구는 위치뿐만 아니라 레이블을 읽기 때문에 'USD 기준 송장 총액'과 'EUR 기준 참조 금액'을 구분할 수 있습니다. 출력에는 일반적으로 각 금액 옆에 통화 필드가 포함됩니다.
AI 송장 추출의 정확도는 어느 정도인가요?
인쇄된 가독성 좋은 송장의 경우, 최신 AI 기반 도구의 필드 수준 정확도는 문서 품질과 필드 유형에 따라 95%에서 99% 사이입니다. 송장 번호와 날짜는 높은 정확도(98~99%)를 보이는 반면, 품목 및 결제 조건은 변동성이 커서 상대적으로 낮은 정확도(90~95%)를 보입니다. Journal of Accountancy에 인용된 Gartner의 회계 책임자 설문 조사에 따르면, 수동 입력과 비교했을 때 응답자의 59%가 매달 여러 건의 재무 오류를 보고했습니다. 이는 그들이 발견한 오류만 집계한 수치입니다. 추출이 모든 것을 일일이 확인해야 하는 필요성을 없애지는 않지만, 업무 부담을 '모든 것을 입력하고 확인하는 것'에서 '예외 사항만 검토하는 것'으로 전환시킵니다.
우리나라가 전자송장(e-invoicing)으로 전환 중인데, 여전히 송장 추출이 필요한가요?
네, 당분간은 필요합니다. 프랑스의 2026년 9월 대기업 의무화, 벨기에의 2026년 1월 Peppol 의무화, 독일의 2027년까지 단계적 도입과 같은 전자송장 의무화는 기업 간 송장의 전송 형식을 표준화합니다. 그러나 실제로 공급업체가 보내는 내용까지 표준화하지는 않습니다. 의무 전환 기간 동안에는 수년간 규격에 맞는 전자송장, 기존 PDF, 이메일로 스캔된 문서가 혼재되어 들어옵니다. 또한 구조화된 전자송장(UBL, Factur-X)조차도 특정 회계 시스템 필드에 데이터를 매핑해야 합니다. 추출 도구는 단일 파이프라인을 통해 구조화 및 비구조화 형식을 모두 처리하므로, 전환 과정을 두 가지 시스템을 운영해야 하는 골칫거리가 아닌 관리 가능한 작업으로 만들어 줍니다.
송장 추출이 Excel의 Power Query와 어떻게 다른가요?
Power Query는 PDF에서 데이터를 추출할 수 있지만, 예측 가능하고 일관된 구조의 텍스트 기반 PDF에만 해당되며, 그 경우에도 상당한 정리가 필요한 경우가 많습니다. 의미를 이해하지 못하기 때문에, 레이블이 지정된 셀에 예측 가능하게 위치하지 않으면 송장 날짜와 배송 날짜를 구분할 수 없고, 스캔 또는 이미지 기반 PDF에서는 전혀 작동하지 않습니다. 항상 동일한 형태의 송장을 보내는 단일 공급업체에는 유용하지만, 레이아웃이 다른 두 번째 공급업체가 추가되면 작동이 중단됩니다. PDF 추출 방식 비교는 PDF, 스캔, 사진 송장 추출 가이드를 참조하세요.
영어 외 다른 언어로 된 송장에서도 데이터를 추출할 수 있나요?
네. 최신 AI 추출 도구는 일본어, 한국어, 아랍어, 중국어 등 비라틴 문자를 포함한 수십 개 언어의 송장을 처리합니다. 핵심 역량은 비전 모델의 언어 이해 능력입니다. 문서의 언어로 된 필드 레이블을 읽고, 출력 열 이름이 영어인 경우에도 올바르게 매핑할 수 있어야 합니다. 국제 송장 시나리오에 대한 자세한 내용은 국제 송장 데이터 추출 가이드를 참조하세요.
송장 추출은 어떤 파일과 형식을 지원하나요?
대부분의 최신 도구는 PDF, JPG, PNG, WebP를 지원합니다. PDF는 디지털 생성(텍스트 기반) PDF와 스캔(이미지 기반) PDF 모두를 포함하는 범용 형식입니다. 종이 송장을 휴대폰으로 촬영한 사진도 이미지가 적절히 선명하고 조명이 밝으면 사용 가능합니다. 일부 도구는 AVIF, TIFF 및 이메일 첨부 파일 자동 캡처도 지원합니다. 형식 유연성이 중요한 이유는 실제로 송장이 이메일 첨부 파일(PDF), 공급업체 포털(PDF 다운로드), 현장 직원의 모바일 사진(JPG), 기존 종이 문서(스캔 PDF) 등 여러 채널을 통해 유입되기 때문입니다. 한 가지 형식만 처리하는 도구는 사용 전에 모든 파일을 변환해야 하는 불편을 초래합니다.
다음 단계
송장 데이터 추출은 두 가지 큰 변화의 교차점에 있습니다. 템플릿에 의존하는 OCR에서 AI 기반 의미 이해로의 전환, 그리고 전자송장 의무화에 따른 구조화된 송장 데이터에 대한 글로벌 요구가 그것입니다. 오늘날에는 설정 없이도 다양한 형식의 송장 데이터를 안정적으로 추출할 수 있는 도구가 존재합니다. 이는 불과 2년 전만 해도 불가능했던 일입니다.
추출 기능이 워크플로에 적합한지 평가하는 가장 좋은 방법은 실제 송장(가장 일반적인 형식과 가장 까다로운 형식을 혼합하여)으로 테스트해보는 것입니다. 가장 어려운 케이스를 깔끔하게 처리한다면, 쉬운 케이스는 당연히 문제없습니다. 설정부터 내보내기까지 전체 추출 워크플로에 대한 종합적인 안내는 송장 데이터 추출 완벽 가이드를 참조하세요. 또는 자체 송장에서 어떻게 작동하는지 직접 확인하려면 샘플을 업로드하여 지금 테스트해보세요.