여러 파일을 일괄 OCR하는 방법:
정리부터 스프레드시트 출력까지의 완벽한 워크플로우
대부분의 일괄 OCR 가이드는 잘못된 종착점에서 멈춥니다. 스캔한 PDF를 검색 가능한 문서로 바꿔주지만, 송장, 영수증, 구매 주문서를 처리하는 경우 실제로 필요한 것은 모든 데이터가 하나의 스프레드시트에 문서당 한 행씩 정리된 형태입니다. 여기 파일 정리부터 도구 선택, 병합된 출력까지의 전체 워크플로우를 데스크톱 일괄 처리, 클라우드 API, 최신 AI 추출 등 모든 계층을 다루어 설명합니다.
핵심 요약
- 대부분의 일괄 OCR 가이드는 파일 50개를 입력받아 검색 가능한 PDF 50개를 출력한 후, 실제 작업인 모든 송장 번호와 합계를 스프레드시트에 수동으로 복사하는 과정을 조용히 넘깁니다.
- 데스크톱 일괄 OCR이나 클라우드 API 모두 송장 번호와 페이지 번호를 구분할 수 없으므로, 스프레드시트로의 필드 수준 추출은 항상 사용자 정의 스크립트나 수 시간의 수동 복사가 필요했습니다.
- AI 추출은 페이지 위치가 아닌 의미를 기준으로 필드를 읽기 때문에, 열을 한 번만 정의하면 모든 배치가 문서당 한 행씩 하나의 병합된 스프레드시트로 출력되며 별도의 통합 단계가 필요 없습니다.
배치 OCR이 실제로 하는 일 (그리고 하지 않는 일)
배치 OCR 도구는 근본적으로 다른 두 가지 유형의 출력을 생성합니다. 잘못된 유형을 선택하면 배치 프로젝트가 중간에 멈추게 됩니다. 1단계 — 검색 가능한 PDF 출력: 도구가 각 페이지를 읽고 스캔 이미지 뒤에 텍스트를 보이지 않게 삽입합니다. 이제 PDF에서 키워드를 검색할 수 있지만, 데이터는 개별 파일 안에 갇혀 있습니다. Adobe Acrobat Pro DC 및 ABBYY FineReader와 같은 데스크톱 도구가 여기에서 작동합니다. 2단계 — 구조화된 데이터 출력: 도구가 각 필드의 의미(이 텍스트는 송장 번호, 이것은 합계 금액)를 식별하고 이를 스프레드시트의 열(문서당 한 행)로 출력합니다. 클라우드 API 및 AI 추출 플랫폼은 다양한 설정 복잡성 수준에서 여기에서 작동합니다.
200개의 계약서를 검색하려면 1단계면 충분합니다. 200개의 송장 합계를 모두 단일 열에 넣어 구매 주문서와 대조하려면 2단계가 필요합니다. 이 가이드는 두 경로를 모두 다룹니다.
1단계: 시작하기 전에 파일 정리
가장 흔한 배치 OCR 실패 원인은 도구가 아니라 입력 파일입니다. 깔끔한 파일 정리 단계는 어떤 도구 기능보다 시간을 절약해 줍니다. 실행 전에 해야 할 일은 다음과 같습니다:
모든 PDF, JPG, PNG 또는 TIFF 파일을 단일 디렉토리에 모으십시오. 하위 폴더가 있으면 도구가 중첩된 파일을 건너뛸 수 있습니다. 추적을 쉽게 하기 위해 2026-06-batch-invoices/와 같은 이름을 사용하십시오.
파일 이름을 공급업체_송장번호_날짜.pdf 형식으로 지정하십시오. 대부분의 도구는 출력에 파일 이름을 보존하므로, 처리가 시작되기도 전에 교차 참조 키가 이미 포함됩니다.
배치에 이미지 전용 PDF와 이미 OCR 처리된 파일이 섞여 있으면, 대부분의 데스크톱 도구는 후자를 다시 처리하여 시간이 두 배로 걸리고 손상 위험이 있습니다. 빠른 확인: PDF를 열고 Ctrl+F를 누르십시오. 텍스트를 검색할 수 있으면 이미 텍스트 레이어가 있는 것입니다. 해당 파일들을 입력 폴더에서 옮기십시오.
모든 파일이 읽을 수 있고 스캔 해상도가 최소 200 DPI인지 확인하십시오. 도구마다 선호하는 형식이 다릅니다. Acrobat은 PDF를 선호하고, 클라우드 API는 이미지를 기본적으로 처리합니다. 손상되었거나 회전된 파일은 배치 중간에 조용히 실패할 수 있습니다.
Reddit 꿀팁 (r/sysadmin 출처): "배치 작업이 부분적으로 실패했다면, 수정 시간 기준으로 파일을 정렬하고 성공한 파일을 다른 폴더로 옮긴 뒤, 남은 파일에 대해 배치를 다시 실행하세요." 이 패턴 — 처리, 검사, 실패 분리, 재시도 — 모든 도구 계층에서 동일하게 적용됩니다.
2단계: 배치 도구 선택하기
배치 OCR 도구는 세 가지 유형으로 나뉩니다. 올바른 선택은 세 가지 질문에 달려 있습니다: 어떤 출력 형식이 필요한가? 배치당 몇 개의 파일을 처리하는가? 얼마나 많은 설정을 감수할 의향이 있는가?
| 계층 | 도구 예시 | 출력 | 최적 용도 | 배치 크기 | 설정 |
|---|---|---|---|---|---|
| 데스크톱 배치 | Adobe Acrobat Pro, ABBYY FineReader, PDFelement, Kofax Power PDF | 검색 가능 PDF | 일회성 아카이브 디지털화, 법률 문서 검색 | 50–500개 파일 | 설치 + 마법사 클릭 |
| 클라우드 API | AWS Textract, Google Cloud Vision, Azure AI Vision, OCRmyPDF | JSON/구조화된 텍스트 | 개발자 구축 파이프라인, 대량 자동화 | 1,000개 이상 (오케스트레이션 필요) | 코드 + AWS/Azure 설정 |
| AI 추출 | ImageToTable.ai, Nanonets, Rossum | Excel/CSV (구조화된 데이터) | 스프레드시트로 필드 수준 추출, 반복 배치 인보이스 | 배치당 10–500개 | 업로드 → 열 이름 지정 → 처리 |
각 계층을 더 자세히 살펴보고 어떤 것이 워크플로에 적합한지 결정해 보세요.
데스크톱 배치 OCR (검색 가능한 PDF 출력용)
이미 Adobe Acrobat Pro나 ABBYY FineReader를 보유하고 있다면 데스크톱 도구가 가장 빠른 방법입니다. Acrobat Pro DC에서 도구 → 스캔 향상 → 텍스트 인식 → 여러 파일에서로 이동하세요. OCR 언어를 선택하고, "검색 가능한 이미지"(원본 모양 유지) 또는 "서식 있는 텍스트 및 그래픽"(레이아웃 재구성)을 선택한 후 "사용자에게 확인"을 해제하세요. 그렇지 않으면 Acrobat이 모든 파일에 대해 확인을 요청하여 Adobe 포럼에서 흔히 불만이 제기됩니다. 이 도구는 각 파일을 처리하고 검색 가능한 PDF를 원래 위치에 저장합니다.
한계: 입력 파일당 하나의 검색 가능한 PDF가 생성됩니다. 스프레드시트에서 실제 데이터 값을 얻으려면 각 PDF에서 수동으로 복사해야 하므로 배치의 목적이 무색해집니다.
클라우드 API OCR (개발자 구축 파이프라인용)
AWS Textract, Google Cloud Vision, Azure AI Vision은 대량 자동화에 적합하며, 파이프라인을 연결할 개발자가 필요합니다. AWS Textract는 S3를 통해 비동기 배치 작업을 실행합니다. 파일을 업로드하고 StartDocumentAnalysis를 호출하면 텍스트, 경계 상자, 신뢰도 점수가 포함된 JSON으로 결과가 반환됩니다. 단점: 이러한 API는 원시 텍스트와 위치 데이터만 반환하며, "INV-2026-0042"가 송장 번호라는 것을 이해하지 못합니다. 구조화된 필드 수준 데이터를 얻으려면 후처리 로직을 작성해야 하며, 이는 다양한 공급업체 레이아웃에서 복잡하고 취약해집니다.
AI 추출 (구조화된 스프레드시트 출력용)
이 계층은 처음부터 배치-스프레드시트 워크플로우를 위해 설계되었습니다. ImageToTable.ai와 같은 AI 추출 도구는 비전-언어 모델을 사용하여 문서 의미를 이해합니다. 필드가 페이지에서 어디에 있는지가 아니라 무엇을 의미하는지로 식별합니다. 배치를 업로드하고 원하는 열(송장 번호, 날짜, 공급업체, 합계)을 입력하면 AI가 모든 파일을 병렬로 처리합니다. 출력은 문서당 한 행, 요청한 필드와 일치하는 열이 있는 단일 스프레드시트입니다. 후처리, JSON 파싱, 수동 통합이 필요 없습니다.
이것이 "배치 OCR 여러 파일"을 검색하는 대부분의 사람들이 실제로 원하는 배치 흐름 패턴이지만, 전통적인 도구가 직접 지원하지 않기 때문에 대부분의 기사에서 언급되지 않습니다.
파일은 안전하게 처리되며 저장되지 않습니다. 배치-스프레드시트 워크플로우를 확인하려면 샘플 송장 몇 개를 업로드해 보세요.
3단계: 배치 설정 구성
도구를 선택한 후, 설정 단계에서 배치 실행 결과가 깔끔할지 엉망이 될지 결정됩니다. 이 설정은 세 가지 계층 모두에 중요합니다:
문서에 맞게 언어를 설정하세요. 대부분의 데스크톱 도구는 기본적으로 영어로 설정됩니다. 배치에 프랑스어, 독일어 또는 혼합 언어가 포함된 경우 명시적으로 설정하거나 다국어 엔진(ABBYY FineReader, OCRmyPDF, Tesseract 모두 적절한 언어 팩으로 지원)을 사용하세요.
데스크톱 도구는 검색 가능한 PDF 또는 서식 있는 텍스트 PDF를 제공합니다. 클라우드 API는 JSON, 텍스트 또는 PDF를 반환합니다. AI 추출 도구는 Excel(XLSX), CSV 및 JSON을 제공합니다. 다음 단계에 직접 연결되는 형식을 선택하세요. QuickBooks 가져오기에는 Excel, 사용자 정의 데이터베이스 통합에는 JSON을 선택하세요.
스캔 품질이 일정하지 않은 경우 기울기 보정(회전 보정), 잡음 제거(노이즈 제거) 및 대비 정규화를 활성화하세요. 깨끗한 300 DPI 스캔의 경우 건너뛸 수 있습니다. 휴대폰 사진이나 품질이 혼합된 문서의 경우 전처리가 읽을 수 있는 출력과 쓰레기 출력을 가릅니다. OCRmyPDF의 --deskew --clean 플래그는 확실한 기본값입니다.
데스크톱 도구는 거의 항상 입력당 하나의 출력을 생성합니다. 즉, PDF 50개 입력 = PDF 50개 출력입니다. AI 추출 플랫폼에서는 파일별 또는 단일 병합 스프레드시트를 선택할 수 있습니다. 여기서의 선택에 따라 5단계가 간단해질지 어려워질지 결정됩니다.
4단계: 배치 실행 및 진행 상황 모니터링
파일이 정리되고 설정이 완료되면 배치를 실행할 차례입니다. 실행 중 다음 사항을 주의 깊게 살펴보세요:
데스크톱 도구: 파일별 진행 표시기 — 녹색=성공, 노란색/빨간색=실패. 파일이 실패하면 오류 메시지를 확인하세요. 일반적인 원인: 손상된 PDF, 암호로 보호된 파일, 해상도가 너무 낮은 스캔. Acrobat의 Action Wizard는 설정에서 "사용자에게 확인" 체크박스를 해제하면 무인 실행이 가능합니다.
클라우드 API: 비동기 작업은 작업 ID를 반환합니다. 상태 엔드포인트를 폴링하여 진행 상황을 추적하세요. AWS Textract의 GetDocumentAnalysis는 IN_PROGRESS, SUCCEEDED, 또는 FAILED의 JobStatus를 반환합니다. 부분 실패는 전체 작업이 아닌 개별 페이지에 영향을 미치므로 응답을 분석하여 실패한 페이지를 식별하세요.
AI 추출 도구: 대부분은 대기 중, 처리 중, 완료, 실패한 파일을 보여주는 실시간 배치 상태 대시보드를 제공합니다. ImageToTable.ai의 배치 폴링은 작업 기간에 따라 3~30초마다 자동으로 확인합니다. 탭을 닫았다가 배치가 완료되면 돌아올 수 있습니다. 대시보드에는 각 파일의 상태와 함께 추출된 데이터가 미리보기 또는 내보내기 준비 상태로 표시됩니다.
어떤 계층을 사용하든 배치 후 검사 절차는 동일합니다: 먼저 실패한 파일을 확인하세요. 파일이 실패한 경우 문제를 해결하고(흐릿한 페이지 다시 스캔, 암호로 잠긴 PDF 보호 해제, 지원되지 않는 형식 변환) 실패한 파일만 다시 실행하세요. Reddit 시스템 관리자가 언급했듯이, 수정 시간별로 정렬하고 성공한 파일은 이동한 후 나머지를 다시 실행하는 것이 가장 효율적인 복구 패턴입니다.
5단계: 결과를 하나의 스프레드시트로 병합
다른 모든 글에서 건너뛰는 단계이자 가장 중요한 단계입니다. 50개의 송장을 처리했습니다. 이제 50개의 개별 출력 파일이 있습니다. 각 송장이 행 하나가 되는 단일 스프레드시트를 얻으려면 어떻게 해야 할까요?
데스크톱 도구(검색 가능한 PDF 출력)를 사용한 경우: 두 번째 도구가 필요합니다. 모든 PDF를 Excel로 변환한 후 수동으로 결합하는 Adobe의 "여러 파일 내보내기", pdfplumber를 사용한 Python 스크립트, 또는 각 PDF에서 수동으로 복사하여 붙여넣기 중 하나를 선택해야 합니다. 어느 것도 이상적이지 않습니다.
클라우드 API(JSON 출력)를 사용한 경우: 각 JSON 응답을 구문 분석하고 필드를 CSV에 작성합니다. 자동화는 가능하지만, 클라우드 API 필드 이름은 일반적이므로(Textract의 "BlockType": "WORD"), 의미 있는 필드 추출을 위한 매핑 로직이 필요합니다.
AI 추출 도구(구조화된 출력)를 사용한 경우: 여기서 일괄 처리 우선 설계의 장점이 드러납니다. ImageToTable.ai의 배치 문서를 Excel로 변환 워크플로와 같은 도구는 동일한 열 템플릿을 통해 모든 파일을 처리하고 파일당 한 행씩 단일 병합 스프레드시트를 출력합니다. 통합 단계가 필요 없습니다.
핵심은 다음과 같습니다. 첫 번째 배치가 스프레드시트에 들어가면 추출 규칙을 재사용할 수 있습니다. 이후의 모든 배치는 업로드 시간만 소요됩니다. 수동으로 문서당 3분 걸리던 작업이 이제 페이지당 5~10초가 소요되어 18배의 효율성 향상을 가져옵니다.
일괄 OCR 작업 시 자주 발생하는 문제 해결
아무리 신중하게 설정해도 일괄 작업 중 문제가 발생할 수 있습니다. 가장 흔한 문제와 해결 방법을 소개합니다:
증상: 처리 시간이 예상보다 훨씬 길어지고 파일 크기가 두 배로 늘어납니다. 해결책: 입력 폴더에 추가하기 전에 이미 OCR 처리된 PDF가 있는지 확인하세요. Adobe Acrobat에서는 문서 속성 → 글꼴에서 확인할 수 있습니다. 글꼴이 나열되어 있으면 텍스트 레이어가 있는 파일입니다. 해당 파일을 별도의 "이미 처리됨" 폴더로 이동하세요.
특히 Action Wizard에서 자주 발생하는 Acrobat의 불편한 문제입니다. 해결책: OCR 작업을 구성할 때 "설정 지정"을 클릭하고 언어와 출력 스타일을 구성한 후 "사용자에게 확인"이 선택 해제되었는지 확인하세요. 작업을 저장하면 이후 실행 시 중단 없이 모든 파일에 동일한 설정이 적용됩니다.
기존 OCR 엔진(Tesseract, Acrobat 내장 OCR)은 손글씨, 복잡한 표, 다단 레이아웃에 취약합니다. 일괄 처리에 손글씨 항목이 포함된 경우, 비전-언어 모델을 사용하는 AI 추출 도구를 고려해 보세요. 이러한 도구는 문자 모양을 일치시키는 대신 문서의 시각적 맥락을 이해하여 손글씨 값, 체크박스, 혼합 레이아웃을 해석할 수 있습니다. 기존 방식과 최신 방식의 차이에 대한 자세한 내용은 OCR의 실제 의미와 AI 추출의 차이점에 대한 설명을 참조하세요.
데스크톱 도구는 문제가 있는 단일 문서로 인해 전체 일괄 처리가 중단되는 경우가 있습니다. 해결 방법: 한 번에 200개 파일을 처리하지 말고 20~30개씩 하위 일괄로 나누어 처리하세요. 클라우드 API의 경우 오케스트레이션 스크립트에 오류 처리를 추가하여 각 문서 호출을 try-catch 블록으로 감싸 하나의 실패가 전체 작업을 중단시키지 않도록 하세요. AI 추출 플랫폼은 대부분 파일별로 오류를 격리하여 내부적으로 처리합니다.
출처가 다른 문서는 날짜를 "06/30/2026", "2026년 6월 30일", 또는 "2026-06-30" 등 다양한 형식으로 기록할 수 있습니다. 일부 도구(AI 추출 플랫폼 포함)는 추출 중에 날짜와 숫자 형식을 정규화할 수 있습니다. 그렇지 않은 경우, 내보내기 후 Excel의 서식 함수나 간단한 데이터 정리 스크립트를 사용할 수 있습니다. 이는 일반적으로 일회성 매핑 작업으로, 한 번 정의하면 이후 모든 일괄 처리에 적용됩니다.
자주 묻는 질문
한 번에 몇 개의 파일을 처리할 수 있나요?
데스크톱 도구는 50~500개 파일을 무리 없이 처리합니다. 클라우드 API는 적절한 오케스트레이션으로 수천 개까지 확장 가능합니다. AI 추출 플랫폼은 UI에서 보통 배치당 10~500개 파일을 지원합니다.
배치 OCR과 배치 데이터 추출은 같은 것인가요?
아닙니다. 배치 OCR은 이미지를 검색 가능한 텍스트로 변환합니다. 배치 데이터 추출은 특정 필드(송장 번호, 합계, 공급업체)를 식별하여 구조화된 스프레드시트 행으로 출력합니다. '송장'이 포함된 모든 문서를 찾는 것이 목적이라면 OCR로 충분합니다. 모든 송장 합계를 B열에 넣어야 한다면 추출이 필요합니다.
스캔된 PDF 500개의 배치 OCR을 가장 빠르게 처리하는 방법은?
검색 가능한 텍스트의 경우, OCRmyPDF와 GNU Parallel을 사용하면 500개의 PDF를 30~60분 안에 처리합니다 — parallel --tag -j 4 ocrmypdf --deskew '{}' 'output/{}' ::: *.pdf. 구조화된 데이터의 경우, AI 추출 도구가 서버 측에서 처리하여 50개의 송장을 단일 Excel 파일로 5~15분 안에 제공합니다. 더 많은 옵션은 최고의 OCR 소프트웨어 비교를 참조하세요.
배치 OCR이 PDF와 이미지를 같은 배치에서 처리할 수 있나요?
대부분의 데스크톱 도구는 PDF만 처리합니다. 클라우드 API는 둘 다 처리할 수 있지만 형식별로 별도의 메서드가 필요합니다. ImageToTable.ai와 같은 AI 추출 도구는 변환 없이 PDF, JPG, PNG, WebP, AVIF를 동일한 배치에서 기본적으로 지원합니다.
매 배치마다 열 이름을 지정해야 하나요?
AI 추출 도구에만 해당되며, 문서 유형당 한 번만 설정하면 됩니다. 송장에 대한 열(송장 번호, 날짜, 공급업체, 합계)을 한 번 정의하면 이후 모든 배치에서 동일한 템플릿을 재사용합니다. 데스크톱 OCR에는 열이 없으며, 클라우드 API는 프로그래밍 방식으로 매핑하는 JSON을 반환합니다.
일괄 워크플로우: 준비부터 스프레드시트까지
필요한 출력물을 미리 결정하면 워크플로우가 가장 명확해집니다:
- 검색 가능한 PDF만 필요 → 데스크톱 도구(Acrobat, ABBYY) 또는 OCRmyPDF
- 맞춤 처리를 위한 원시 텍스트 → 클라우드 API(AWS, Google, Azure) → JSON → 사용자 파싱 로직
- 모든 필드가 포함된 구조화된 스프레드시트 → AI 추출 → 통합 Excel 파일 → 회계 시스템에 직접 입력
가장 큰 시간 절약은 OCR 속도가 아니라, 대부분의 가이드가 언급하지 않는 수동 후처리 작업을 없애는 데 있습니다. 병합된 구조화 데이터를 출력하는 워크플로우를 선택하면 "OCR 완료" 알림 이후 조용히 몇 시간을 잡아먹는 파일별 통합 작업을 건너뛸 수 있습니다. 일괄 처리는 디지털화 부분뿐만 아니라 전체 워크플로우에서 시간을 절약해야 합니다.