일괄 문서 처리는 어떻게 작동하나요? 업로드부터 엑셀 병합까지

일괄 문서 처리를 우체국의 우편물 분류에 비유해 보겠습니다. 하나씩 분류하는 것은 각 봉투를 열고, 주소를 읽고, 경로를 지정하는 수동 방식입니다. 일괄 분류는 모든 자루를 기계에 쏟아부어 모든 주소를 동시에 읽고 한 번에 올바른 칸으로 분류하는 것입니다. 50개의 송장을 한 번에 업로드할 때 일어나는 일이 바로 이것입니다. AI가 각 문서를 읽고, 데이터를 추출한 후, 모든 것을 하나의 표로 병합합니다.

배치 처리가 실제로 하는 일

배치 처리를 특별하게 만드는 핵심은 속도가 아니라 아키텍처입니다. 문서를 하나씩 처리할 때 시스템은 선형 경로를 따릅니다. 파일 업로드, 완료 대기, 결과 다운로드, 다음 파일 업로드. 각 문서는 앞선 문서가 끝날 때까지 기다립니다. 배치 처리 시 시스템은 한 번에 여러 레인을 엽니다. 50개 파일이 모두 함께 업로드됩니다. 병렬로 파싱됩니다. 그리고 출력은 하나의 통합된 결과로 도착합니다. 수동으로 이어 붙여야 할 50개의 개별 스프레드시트가 아닙니다.

이 차이가 중요한 이유는 문서마다 처리 시간이 다르기 때문입니다. 1페이지짜리 PDF 인보이스는 8초 만에 처리될 수 있습니다. 손글씨가 있는 30페이지짜리 스캔 계약서는 25초가 걸릴 수 있습니다. 하나씩 처리하는 워크플로에서는 모든 문서가 앞에 있는 가장 느린 문서 뒤에서 기다려야 합니다. 배치 워크플로에서는 3단계 큐 시스템이 이를 처리합니다: 업로드(모든 파일이 동시에 도착), 큐(리소스가 허용하는 한 빠르게 파일을 사용 가능한 처리 슬롯에 할당 — 빠른 문서는 완료되어 다음 문서를 위한 슬롯을 해제), 병합(각 완료된 결과를 수집하여 단일 테이블로 조합). 12번 위치의 느린 문서가 13번 위치가 먼저 완료되는 것을 막지 않습니다.

출력 측면에서 배치 처리라는 이름이 빛을 발합니다. 문서당 하나씩 별도의 Excel 파일을 받는 대신, 각 행이 하나의 문서에서 추출된 데이터이고 각 열이 요청한 필드인 단일 스프레드시트를 얻습니다. 40개의 구매 주문서를 업로드하고 "PO 번호", "공급업체", "라인 합계", "납기일"과 같은 열을 지정하면 출력은 40개의 행이 있는 하나의 테이블입니다. PO당 하나의 행, 모든 필드가 열에 정렬됩니다. 파일 간 복사-붙여넣기 없음. 수동 병합 없음.

단계별: 배치 중에 일어나는 일

30개의 파일을 업로드 영역으로 끌어다 놓는 순간부터 병합된 스프레드시트를 다운로드하는 순간 사이에 일어나는 일입니다.

업로드 및 큐

선택한 모든 파일이 한 번에 업로드됩니다. 시스템은 각 파일을 등록하고(유형(PDF, JPG, PNG), 파일 크기, 페이지 수 기록) 처리 큐에 배치합니다. 200페이지 PDF는 큐에 들어가기 전에 개별 페이지 이미지로 분할되므로 1페이지가 처리되는 동안 50페이지가 여전히 업로드될 수 있습니다. 이 큐 전 파일 분석을 통해 시스템은 작은 문서를 굶기는 거대한 문서를 처리하는 대신 지능적으로 리소스를 할당할 수 있습니다.

병렬 처리

여기서 배치의 이점이 실제로 드러납니다. 한 번에 하나의 파일 대신 여러 문서가 동시에 처리됩니다. 각 문서는 사용 가능한 처리 슬롯에 할당됩니다. AI는 필드가 위치한 위치가 아니라 문서가 말하는 내용을 이해하여 각 문서를 읽습니다. "인보이스 번호"와 "합계"를 요청한 경우 AI는 해당 필드를 의미로 찾습니다. 한 공급업체의 PDF 상단에 나타나든 다른 공급업체의 테이블에 포함되어 있든 상관없습니다. 이전 도구와의 주요 차이점: 추출이 템플릿이 필요 없기 때문에 시스템은 파일별 구성이 필요하지 않습니다. 동일한 추출 로직이 문서별 설정 없이 배치의 모든 문서에서 작동합니다.

결과 수집 및 병합

각 문서 처리가 완료되면 추출된 데이터가 수집됩니다. 문서마다 완료 순서가 다르더라도(빠른 단일 페이지 영수증이 30페이지 계약서보다 먼저 끝남) 병합 단계에서 모든 데이터를 올바른 순서로 정렬합니다. 결과는 행 단위로 조합됩니다. 각 문서는 하나의 행이 되고, 각 데이터 필드는 하나의 열이 됩니다. 세 개의 열을 지정했다면 모든 행에 해당 세 개의 열이 채워지거나, 특정 문서에 해당 필드가 실제로 없는 경우 비어 있는 상태로 남습니다.

내보내기

병합된 결과는 단일 Excel(XLSX) 파일로 작성됩니다. 배치당 하나의 워크시트에 모든 문서 데이터가 동일한 열에 정렬됩니다. CSV 또는 JSON으로도 내보낼 수 있습니다. 출력 데이터는 추가 서식 변경 없이 회계 소프트웨어나 ERP에 바로 가져올 수 있을 정도로 깔끔합니다. Google Sheets 애드온을 사용하면 병합된 데이터가 스프레드시트에 직접 입력되므로 다운로드 및 가져오기 단계가 필요 없습니다.

기존 방식 vs 배치 방식

문서를 하나씩 처리하는 방식과 배치 처리 방식의 차이는 단순히 속도만이 아닙니다. 업로드 사이에 수행하는 작업의 종류 자체가 다릅니다. 실제 문서를 다룰 때 중요한 여러 측면에서 두 방식을 비교해 보겠습니다.

측면	개별 처리	배치 처리
업로드	파일 하나 선택, 업로드, 결과 대기, 반복 × N회	모든 N개 파일을 한 번에 선택; 동시 업로드
동시 처리	처리 슬롯 1개 — 각 파일은 이전 파일이 끝날 때까지 대기	여러 병렬 슬롯 — 빠른 파일이 먼저 완료되어 다음 파일을 위한 슬롯 확보
형식 다양성	공급업체 형식이 다르면 파일별 설정이 다름 (템플릿 도구)	하나의 열 정의가 모든 파일에 적용 — 형식에 무관
출력	N개의 개별 파일; 수동으로 하나로 병합 필요	하나의 병합 파일 — 각 문서는 행, 각 필드는 열
일관성	개별 실행 간 필드 정의 차이 발생 위험	모든 문서에 동일한 추출 로직이 일괄 적용

형식 변형 행은 특별히 주의해야 합니다. 템플릿에 의존하는 기존 OCR 도구에서는 배치 처리가 템플릿 적용 범위에 따라 성능이 결정됩니다. 공급업체 7이 공급업체 1~6과 다른 송장 레이아웃을 사용하는 경우, 공급업체 7용 새 템플릿을 만들거나 배치에서 필드를 놓칠 위험을 감수해야 합니다. 위치가 아닌 의미로 추출하는 AI를 사용하면 "송장 번호", "날짜", "합계"라는 단일 열 정의가 모든 공급업체 레이아웃에서 작동합니다. AI가 한 송장의 "참조번호:"와 다른 송장의 "Invoice #"가 동일한 것을 가리킨다는 것을 이해하기 때문입니다. 이것이 바로 AI 기반 추출이 기존 템플릿 기반 방식보다 배치 워크플로우에 훨씬 더 적합한 이유입니다.

배치 처리가 중요한 이유

시간 절약은 명백한 이점이지만, 가장 중요한 것은 아닙니다. 덜 명백한 세 가지 결과로 인해 배치 처리가 실제 워크플로우에 혁신을 가져옵니다.

문서 간 일관성. 문서를 하나씩 처리하면 각 실행이 독립적인 추출입니다. 파일 3과 파일 4 사이에서 열 이름을 "금액"에서 "송장 합계"로 변경하면 결과에 두 개의 다른 열 스키마가 생깁니다. 배치 처리는 단일 실행에서 모든 파일에 동일한 추출 논리를 적용하여 열 수준의 일관성을 보장합니다. 모든 행은 동일한 순서로 동일한 열을 가지며, 동일한 추출 규칙으로 채워집니다. 이는 월말 정산이나 감사를 위해 데이터를 준비할 때 매우 중요합니다. 일관성 없는 열은 다운스트림 가져오기를 중단시키는 첫 번째 요인이기 때문입니다.

병합된 출력이 실제 병목 현상을 제거합니다. 대부분의 사람들은 문서 데이터 입력의 병목 현상이 추출 자체라고 생각합니다. 하지만 그렇지 않습니다. 실제 병목 현상은 추출 후에 발생합니다. 즉, 개별 파일을 열고, 데이터를 마스터 스프레드시트에 복사하고, 열을 정렬하고, 복사-붙여넣기 중에 발생한 오류를 확인하는 과정입니다. 배치 처리는 이 전체 추출 후 계층을 제거합니다. 출력 자체가 마스터 스프레드시트이기 때문입니다. 조립이 필요 없습니다.

시간은 선형적으로 증가하지 않습니다. 하나의 문서를 처리하는 데 10초가 걸린다면, 50개의 문서를 처리하는 데 500초가 걸리지 않고 90초가 걸릴 수 있습니다. 동시 처리 아키텍처는 대부분의 문서가 순차적이 아닌 병렬로 완료됨을 의미합니다. 총 배치 시간은 모든 처리 시간의 합이 아니라 배치에서 가장 느린 문서에 의해 결정됩니다. 월 200개의 송장을 처리하는 팀의 경우, 이는 30분이 걸리는 작업과 커피를 마시는 동안 완료되는 작업의 차이입니다.

첫 배치 전에 알아두면 좋은 점

배치 처리는 간단하지만, 몇 가지 실용적인 팁을 알면 첫 실행이 매끄러워지고 실패를 피할 수 있습니다.

파일 개수와 크기는 함께 고려해야 합니다. 파일 개수보다는 파일 크기의 분포가 더 중요합니다. 1페이지짜리 PDF 100개로 구성된 배치와 1페이지짜리 PDF 10개 및 200페이지짜리 PDF 1개로 구성된 배치는 처리 방식이 다릅니다. 큰 파일 하나가 전체 배치 시간을 좌우할 수 있는데, 병합 단계는 가장 느린 파일까지 모두 완료되어야 끝나기 때문입니다. 파일 크기가 다양하다면 예상 페이지 수별로 배치를 나누면 처리 시간을 예측 가능하게 유지할 수 있습니다.

열 이름은 AI와의 인터페이스입니다. 열에 지정하는 이름이 AI가 따르는 지침입니다. 대부분의 송장에는 "합계"면 충분하지만, 품목별 합계와 주문 총합계가 모두 있는 구매 주문서에서 데이터를 추출하는 경우에는 "주문 합계"와 "품목 합계"처럼 별도의 열을 사용하여 모호함을 피해야 합니다. AI는 마음을 읽을 수 없지만, 정확한 열 이름은 읽을 수 있습니다. 추출 중에 AI가 계산을 수행하도록 하려면(예: 수량과 단가에서 품목 합계 계산) 계산 열을 사용하여 원시 데이터가 아닌 답변을 얻을 수 있습니다.

혼합 형식도 괜찮습니다. 배치에는 PDF, JPG, PNG, 스크린샷이 모두 섞여 있을 수 있습니다. AI는 고정된 레이아웃을 구문 분석하는 대신 콘텐츠를 이해하여 읽기 때문에 형식이 다양해도 문제가 되지 않습니다. 휴대폰으로 찍은 영수증 사진과 공급업체 ERP 시스템의 선명한 디지털 PDF 송장 모두 동일한 배치에서 동일한 병합 스프레드시트로 동일한 구조화된 출력을 생성합니다.

문서에 특정 필드가 실제로 없는 경우 해당 셀은 비어 있습니다. 모든 문서에 요청한 모든 필드가 있는 것은 아닙니다. PO 번호가 없는 송장은 해당 행의 PO 번호 열에 빈 셀만 표시되며, 배치가 중단되거나 오류가 발생하지 않습니다. 이는 의도된 설계입니다. AI는 존재하는 내용을 추출하고 없는 부분은 비워 두므로, 스프레드시트를 살펴보고 빈 셀이 예상된 것인지 후속 조치가 필요한지 결정할 수 있습니다.

자주 묻는 질문

한 번에 몇 개의 문서를 일괄 처리할 수 있나요?

도구에 따라 다르지만, 잘 설계된 일괄 처리 시스템은 한 번에 50~100개 문서를 무리 없이 처리합니다. 실제 제한은 보통 처리 엔진이 아니라 결과를 확인하는 실용적인 제약입니다. 200개 행을 훑어보며 정확성을 점검하는 것이 500개를 스크롤하는 것보다 효과적입니다. 정확성을 먼저 파악하기 위해 소규모 배치(10~20개)로 시작한 후 규모를 늘리세요.

일괄 처리가 필기 문서에도 작동하나요?

네, 최신 AI는 인쇄된 문자를 매칭하는 대신 시각적 장면을 이해하여 문서를 읽기 때문에 필기도 또 다른 시각적 패턴일 뿐입니다. 깔끔한 필기는 인쇄된 텍스트에 준하는 정확도로 추출됩니다. 매우 지저분한 필기체(사람도 읽기 어려운 수준)는 정확도가 낮아집니다. 인쇄 문서와 필기 문서가 섞여 있어도 특별한 설정 없이 동일한 배치에서 모두 처리됩니다.

배치 내 파일 하나가 실패하면 어떻게 되나요?

적절히 설계된 일괄 처리 시스템은 하나의 실패한 파일이 전체 배치를 망치지 않습니다. 성공적으로 처리된 파일은 결과를 생성합니다. 오류가 발생한 파일(손상된 PDF, 읽을 수 없는 이미지, 지원되지 않는 파일 형식 등)은 오류 상태로 표시되고 나머지 배치는 계속 진행됩니다. 실패한 파일은 전체 배치를 다시 실행하지 않고 개별적으로 재시도할 수 있습니다.

PDF, 사진, 스크린샷 등 출처가 다른 문서를 같은 배치에서 처리할 수 있나요?

네. 단일 배치에 PDF, JPG 사진, PNG 스크린샷, WebP 이미지를 모두 섞어 넣을 수 있습니다. AI는 각 파일을 시각적 콘텐츠를 기준으로 독립적으로 읽기 때문에 형식이 다양해도 추출에 영향을 주지 않습니다. 이는 특히 비용 보고와 같은 실제 업무 흐름에서 유용합니다. 예를 들어, 공급업체의 PDF 인보이스, 종이 영수증 사진, 디지털 결제 확인 스크린샷을 모두 동일한 월간 보고서에 포함시킬 수 있습니다.

일괄 처리는 파일을 하나씩 업로드하는 것과 어떻게 다른가요?

파일을 하나씩 업로드하면 결과도 하나씩 나옵니다. 각각의 출력을 수동으로 합쳐야 하죠. 시스템이 순차적으로 처리하기 때문에 각 파일은 이전 파일이 끝날 때까지 기다려야 합니다. 반면 일괄 처리는 모든 파일을 함께 업로드하고, 병렬로 처리한 후 하나의 출력으로 병합합니다. 출력 결과의 차이만 봐도 — 하나의 병합된 스프레드시트 대 N개의 개별 파일 — 후처리 작업 흐름이 완전히 달라집니다.

일괄 처리가 개별 처리보다 비용이 더 많이 드나요?

대부분의 도구에서 일괄 처리는 개별 처리와 동일한 파일당 가격 또는 크레딧 소비를 사용합니다. 일괄 처리에 추가 요금이 붙지 않습니다. 파일당 비용은 동일하며, 시간 절약은 병렬 처리와 병합된 출력 덕분에 얻을 수 있습니다. 일부 도구는 볼륨 할인이나 전용 일괄 처리 가격 체계를 제공합니다. 특정 도구의 가격 페이지를 확인해 보세요.

일괄 처리 중에 규칙이나 계산을 적용할 수 있나요?

네. 도구에서 계산된 열이나 추론된 열을 지원한다면, 열 정의에 계산 로직을 직접 포함시킬 수 있으며 일괄 추출 중에 실행됩니다. 예를 들어, "라인 합계(수량 × 단가)"라는 열은 배치의 모든 문서에 대해 즉시 값을 계산하므로, 병합된 출력에는 원시 추출 숫자뿐만 아니라 계산된 결과도 포함됩니다. 즉, 단일 일괄 실행으로 추출, 계산, 분류를 한 번에 처리할 수 있습니다.

하나씩에서 한 번에로

일괄 처리는 하나씩 처리하는 방식의 더 빠른 버전이 아닙니다. 문서 모음을 하나의 작업으로 취급하고, 병렬로 처리하며, 통합된 결과를 제공하는 다른 아키텍처입니다. 차이는 세 가지 측면에서 드러납니다: 기다리는 시간(대부분의 문서가 순차적이 아닌 병렬로 완료됨), 추출 후 하지 않아도 되는 작업(수동 병합 불필요, 파일 간 복사-붙여넣기 불필요), 그리고 모든 행에서 얻는 일관성(동일한 열, 동일한 규칙, 한 번의 실행).

5년 전에는 취약하거나 불가능했던 이 아키텍처가 오늘날 실용적인 이유는 템플릿 기반 추출에서 의미 기반 추출로의 전환 덕분입니다. 추출이 문서별 템플릿에 의존할 때, 일괄 처리는 템플릿 설정 속도만큼만 빠릅니다. 추출이 각 필드의 의미를 레이아웃과 관계없이 이해하는 방식으로 작동하면, 동일한 열 정의가 문서별 구성 없이 배치의 모든 파일에 적용됩니다. 이것이 일괄 처리를 "모든 문서가 동일하게 보일 때만 빠른" 방식에서 "실제로 받는 다양한 문서 혼합에도 작동하는" 방식으로 바꾸는 핵심입니다.

AI가 문서 내용을 이해하는 방식 — 템플릿 없는 일괄 추출을 가능하게 하는 SEE → UNDERSTAND → FETCH 프로세스 — 에 대해 더 자세히 알아보려면 AI가 문서를 읽는 방법을 읽어보세요. 또한 송장 일괄 처리에 대한 구체적인 단계별 지침이 필요하다면, 송장 데이터를 Excel로 일괄 추출하는 방법 가이드에서 전체 예제를 확인할 수 있습니다.

자신의 문서로 일괄 처리를 시도해보세요. 송장 10개를 업로드하고, 세 개의 열을 지정한 다음, 모두 하나의 스프레드시트로 병합되는 것을 지켜보세요. 템플릿도, 파일별 설정도, 이후 수동 조립도 필요 없습니다.

샘플 송장으로 일괄 처리 시도해보기