PDF 추출 도구가 어떤 파일은 98% 정확도, 다른 파일은 쓰레기 결과를 내는 이유
— 3가지 PDF 유형 설명
화면상으로는 똑같아 보이는 두 개의 PDF를 처리했습니다. 하나는 98%의 깔끔한 결과가 나왔고, 다른 하나는 열이 뒤죽박죽이고 필드가 누락된 엉망진창이었습니다. 차이는 무엇일까요? 하나는 텍스트 기반 PDF였고, 다른 하나는 이미지 전용 PDF였습니다. 추출 도구가 이 두 유형을 완전히 다르게 처리했기 때문입니다.
핵심 요약
- 동일한 추출 도구로 두 개의 PDF에서 각각 98%와 쓰레기 결과가 나옵니다. 화면상으로는 똑같아 보이지만, PDF는 하나의 형식이 아니라 구조적으로 다른 세 가지 컨테이너이기 때문입니다.
- 하이브리드 PDF는 1페이지에 텍스트 레이어를, 3페이지에 스캔 이미지를 숨겨둡니다. 따라서 도구는 절반 페이지에서 조용히 잘못된 데이터 소스를 읽어 숫자는 정확해 보이지만 실제로는 틀린 결과를 반환합니다.
- 커서로 텍스트를 선택해 보세요. 10초면 어떤 PDF 유형인지, 어떤 추출 전략을 적용해야 하는지 알 수 있습니다.
추출 성공을 결정짓는 세 가지 PDF 유형
두 개의 PDF를 나란히 열어 동일한 정보가 포함되어 있음을 확인하고, 같은 추출 도구로 처리했는데 전혀 다른 결과를 얻은 적이 있으신가요? 이는 문서 추출 도구에 대한 가장 흔한 불만이며, 거의 항상 도구 자체의 문제는 아닙니다.
문제는 PDF가 단일 형식이 아니라는 점입니다. PDF는 텍스트를 근본적으로 다른 세 가지 방식으로 저장할 수 있는 컨테이너이며, 대부분의 추출 도구는 그중 한두 가지만 잘 처리합니다. 중요한 차이는 파일 확장자가 .pdf인지 여부가 아니라, 파일에 포함된 텍스트 레이어, 텍스트의 평면 이미지, 또는 둘 다가 있는지 여부입니다. 각 유형이 내부적으로 어떻게 생겼는지 살펴보겠습니다:
소프트웨어로 생성됨 — Word 문서를 PDF로 저장, QuickBooks 내보내기, ERP 생성 보고서. 실제 문자 데이터, 글꼴 정보, 위치 좌표가 포함된 텍스트 레이어가 내장되어 있습니다. 마우스로 개별 단어를 강조 표시, 선택 및 복사할 수 있습니다.
표준 추출 정확도: >95%. OCR 불필요.
종이 문서를 사진 촬영하거나 스캔하여 PDF로 저장한 것. 텍스트 레이어가 존재하지 않음 — 모든 문자는 단순히 패턴으로 배열된 픽셀일 뿐입니다. 텍스트를 선택하려고 하면 커서가 빈 사각형을 그리며 아무것도 강조 표시되지 않습니다. 문서는 본질적으로 PDF 래퍼 안에 있는 사진입니다.
OCR 또는 비전 AI 필요. 정확도: 스캔 품질에 따라 85–99%.
두 가지의 혼합: 텍스트 레이어 와 내장 이미지. 스캔된 서명 페이지가 있는 계약서, 또는 1페이지가 시스템 생성 요약이고 그 뒤에 영수증 사진이 있는 AP 패킷이 일반적인 예입니다.
가장 위험한 유형. 도구가 잘못된 레이어를 읽어 그럴듯해 보이지만 실제로는 쓰레기인 결과를 생성할 수 있습니다.
핵심 통찰: PDF를 화면에 보이는 모습만으로 판단할 수 없습니다. 동일하게 표시되는 두 파일도 형식 수준에서 구조적으로 다를 수 있습니다. 추출 도구가 첫 번째 파일은 완벽하게 처리하고 두 번째 파일은 뒤죽박죽으로 만든 경우, 가장 가능성 있는 설명은 두 파일이 다른 PDF 유형에 속하며 도구가 잘못된 추출 전략을 적용했다는 것입니다.
10초 만에 내 PDF 진단하기 — 세 가지 테스트
PDF 분석 도구나 개발자가 아니어도 내 PDF가 어떤 종류인지 알 수 있습니다. 모든 운영체제에는 PDF 리더 하나면 충분합니다. 아래 세 가지 테스트는 온라인 분석기에 파일을 업로드하는 것보다 훨씬 빠릅니다.
테스트 1: 텍스트 선택 테스트 (가장 확실함)
Adobe Acrobat, Chrome, macOS 미리보기, 모바일 PDF 앱 등 아무 리더에서 PDF를 여세요. 텍스트 선택 도구(보통 I자 커서 또는 T 아이콘)를 클릭하고 문장이나 숫자를 드래그해 보세요.
- 단어가 하나씩 선택되고 복사된다면: PDF에 사용 가능한 텍스트 레이어가 있는 것입니다. 네이티브 텍스트 기반 PDF이거나 OCR 처리된 PDF입니다. 일반 추출이 가능합니다.
- 커서가 빈 사각형을 그리고 아무것도 선택되지 않는다면: 이미지 전용 PDF입니다. 추출할 텍스트 레이어가 없고 픽셀만 있습니다. OCR이나 비전 AI가 필요합니다.
이 테스트는 결정적입니다. 스캔 문서는 아무리 글자가 선명해 보여도 선택 가능한 텍스트가 전혀 없습니다. 사람 눈은 픽셀 패턴을 텍스트로 읽지만, 컴퓨터는 이미지로만 봅니다.
테스트 2: 검색 테스트 (빠른 확인용)
Ctrl+F(Mac은 Cmd+F)를 누르고 문서에 있는 단어(예: 인보이스의 "합계", 계약서의 "날짜")를 입력해 보세요.
- 단어가 찾아지고 강조 표시된다면: 검색 가능한 텍스트가 있는 PDF입니다. 일반적인 방법으로 추출이 가능합니다.
- 화면에 분명히 보이는데도 검색 결과가 0이라면: 이미지 전용 문서입니다.
테스트 3: 혼합 결과 테스트 (하이브리드 감지용)
대부분이 건너뛰는 테스트이며, 하이브리드 PDF가 진단되지 않는 이유입니다. 첫 페이지만 하지 말고 모든 페이지에서 테스트 1을 수행하세요. 1페이지에서 텍스트를 선택한 후, 3페이지, 5페이지로 이동해 보세요.
- 일부 페이지는 텍스트 선택이 되고 다른 페이지는 안 된다면: 하이브리드 PDF입니다. 이 경우 가장 혼란스러운 추출 실패가 발생합니다. 도구가 1, 2페이지는 완벽하게 처리하다가(텍스트 레이어가 깨끗함) 3페이지에서(같은 파일 안에 스캔 이미지가 있음) 열이 어긋나고 필드가 누락됩니다. 파일 이름도 같고 시각적 레이아웃도 일관되어 보이기 때문에 도구가 "중간에 고장 난" 것처럼 느껴집니다.
PDF 유형을 파악하면 해결 방법은 간단해집니다. 각 유형마다 원인과 해결책이 다릅니다.
원인 1: 텍스트 기반 PDF지만 여전히 깨지는 경우
증상: 텍스트를 선택할 수 있고, 소프트웨어로 생성된 PDF지만 추출 결과에 열 순서가 뒤섞이거나, 표 셀이 병합되거나, 화면에 보이는 것과 다른 문자가 출력됩니다.
발생 이유: PDF는 Word 문서처럼 텍스트를 저장하지 않습니다. 정의된 읽기 순서가 있는 선형 단락 대신, PDF는 텍스트를 일련의 그리기 명령어로 인코딩합니다. — 문자 "I"를 좌표 (72, 540)에 배치, "n"을 (78, 540)에 배치하는 식입니다. 형식 자체에는 단락, 읽기 순서 또는 표 구조에 대한 고유한 개념이 없습니다. PDF는 각 문자가 페이지의 어디에 있는지는 알지만, 텍스트의 의미나 읽는 방법은 전혀 이해하지 못합니다.
추출 도구는 이러한 저수준 위치 명령어에서 논리적 구조를 재구성해야 합니다. PDF가 비표준 글꼴 인코딩, 사용자 정의 문자 매핑(CMap) 또는 비표준 PDF 생성기로 생성된 경우, 파일에 기술적으로 텍스트 레이어가 있음에도 불구하고 재구성 과정에서 뒤섞인 출력이 생성될 수 있습니다. 이는 주로 다음 경우에 발생합니다:
- ERP 생성 PDF: 일부 전사 시스템은 비표준 방식으로 텍스트를 인코딩하는 사용자 정의 PDF 생성기를 사용합니다. — PDF 리더가 자체 텍스트 렌더링을 적용하기 때문에 화면에서는 문자가 올바르게 보이지만, 기본 인코딩이 비표준이어서 추출 도구가 올바르게 해석할 수 없습니다.
- 글꼴 하위 집합이 포함된 PDF: 글꼴 문자의 하위 집합만 포함된 경우, 추출 도구가 글리프를 잘못된 유니코드 문자에 매핑하여 실제 내용과 알파벳순으로 인접하지만 의미상으로는 잘못된 "텍스트"를 생성할 수 있습니다.
- 다중 열 레이아웃: 올바르게 구성된 텍스트 기반 PDF라도 추출 도구가 두 열을 가로질러 위에서 아래로 읽으면 출력이 깨질 수 있습니다. 문장이 왼쪽 열의 끝에서 오른쪽 열의 끝으로 점프하여 완전히 읽을 수 없게 됩니다.
해결 방법: 인코딩 또는 레이아웃 문제로 인해 추출이 잘 되지 않는 텍스트 기반 PDF의 경우, PDF를 이미지로 변환하고 비전 AI 도구를 사용하세요. PDF 페이지를 고해상도 이미지(300 DPI 이상)로 변환하고, 페이지를 텍스트 스트림이 아닌 시각적 장면으로 처리하는 비전-언어 모델에 입력하면 인코딩 및 읽기 순서 문제 전체를 우회할 수 있습니다. AI는 사람과 같은 방식으로 문서를 읽습니다. 즉, 페이지를 보고 시각적 구조를 이해합니다.
ImageToTable.ai는 이를 자동으로 처리합니다. PDF를 업로드하면 비전 모델이 텍스트 레이어가 아닌 렌더링된 페이지를 이미지로 읽습니다. 따라서 추출이 PDF의 내부 텍스트 스트림에 의존하지 않기 때문에 인코딩이 잘못된 텍스트 기반 PDF도 올바르게 처리됩니다.
원인 2: 이미지 전용 PDF — 텍스트 레이어가 전혀 없음
증상: 어떤 페이지에서도 텍스트를 선택할 수 없습니다. 파일을 볼 때는 정상으로 보이지만, 모든 추출 도구가 빈 결과나 OCR 쓰레기를 반환합니다. 문서는 사실상 PDF 포장지에 붙여넣은 사진 묶음입니다.
발생 이유: 이는 실제 업무에서 가장 흔한 PDF 시나리오입니다. 공급업체가 인보이스를 출력하고, 서명하고, 도장을 찍은 후 다시 디지털 파일로 스캔합니다. 또는 현장 검사관이 종이 양식을 작성하고, 휴대폰으로 사진을 찍어 이미지를 PDF로 저장한 후 이메일로 보냅니다. PDF의 내부 구조에는 페이지당 정확히 하나의 객체, 즉 단일 평면 이미지만 포함됩니다. 문자 객체, 글꼴 참조, 텍스트 렌더링 명령이 전혀 없습니다.
전통적인 추출 도구 — pdfplumber, PyMuPDF의 텍스트 추출 모드, Excel 내장 PDF 가져오기 등 — 는 텍스트 레이어만 읽습니다. 이미지 전용 PDF를 열면 추출할 내용이 없어 빈 결과를 반환합니다. 이는 도구의 버그나 한계가 아닙니다. 도구는 정상 작동 중입니다. 문서에 도구가 필요로 하는 내용이 없을 뿐입니다.
해결 방법: 이미지 전용 PDF는 OCR(광학 문자 인식) 또는 비전 AI가 필요합니다. 추출 도구가 페이지를 이미지로 읽고, 픽셀 패턴을 문자로 인식한 후 텍스트를 재구성할 수 있어야 합니다. 이때 스캔 품질이 결과의 정확도를 직접 결정합니다.
고해상도 스캔(300 DPI 이상)으로 명암비가 좋고 그림자가 없으며 기울어짐이 최소화된 경우, 최신 도구를 사용하면 추출 정확도가 95% 이상에 달합니다. 저해상도 스캔 — 예를 들어 조명이 나쁜 상태에서 구겨진 영수증을 휴대폰으로 찍은 사진 — 은 정확도가 70% 미만으로 떨어질 수 있습니다. 스캔된 PDF의 AI 추출은 일반적으로 이 범위를 처리합니다. 비전 모델이 완벽한 스캔뿐만 아니라 실제 환경의 문서를 읽도록 훈련되었기 때문입니다.
핵심 차이점: 이미지 전용 PDF는 일관되게 해결 가능합니다. 모든 페이지에 동일한 접근 방식(시각적 읽기)이 필요하며, 결과 품질은 원본 품질에 따라 예측 가능합니다. 진짜 함정은 일관되지 않게 동작하는 유형입니다.원인 3: 모든 것을 망치는 숨은 하이브리드 PDF
증상: 일부 페이지는 완벽하게 추출되지만, 다른 페이지는 뒤죽박죽된 출력, 정렬이 어긋난 열, 또는 누락된 필드가 발생합니다. 실패하는 페이지와 성공하는 페이지는 외관상 동일해 보입니다. 추출 도구가 배치 작업 중 "무작위로" 고장 나는 것처럼 보입니다.
발생 이유: 하이브리드 PDF는 일반 PDF와 똑같이 보이기 때문에 추출 실패의 가장 간과되는 원인입니다. 하이브리드 PDF는 텍스트 레이어와 포함된 이미지를 모두 포함하며, 종종 다른 페이지에 분포되어 있습니다. 이를 발생시키는 시나리오는 다음과 같습니다:
- 건설 계약자가 AIA G702 지급 신청서를 제출합니다. 1페이지는 회계 소프트웨어(텍스트 기반)로 생성됩니다. 2~5페이지는 서명된 변경 주문서의 스캔본(이미지 전용)입니다. 전체 세트가 단일 PDF 파일로 병합됩니다.
- 보험 중개인이 보험 증서를 보냅니다. 첫 페이지는 시스템에서 디지털 내보내기한 것입니다. 두 번째 페이지는 원본 보험 약관 승인의 스캔본입니다.
- 공급업체 이메일에 "완전한 청구서 패킷"이 포함되어 있습니다. 실제 청구서는 디지털 PDF이지만, 첨부된 포장 명세서와 배송 확인서는 동일한 문서에 저장된 스캔 사진입니다.
기존 도구가 하이브리드 PDF를 처리할 때, 전체 파일에 단일 추출 전략을 적용합니다. 도구가 텍스트 레이어를 읽으면 2~5페이지는 아무것도 반환하지 않습니다(텍스트 레이어가 없기 때문). 도구가 모든 항목에 OCR을 적용하면 이미 깨끗한 텍스트 레이어가 있는 페이지에서 텍스트를 이중 추출하여 중복되거나 병합된 데이터를 생성할 수 있습니다. 일부 도구는 두 레이어를 동시에 읽으려고 시도하여 텍스트 레이어의 열과 OCR 레이어의 열이 무작위로 섞인 혼란스러운 혼합 출력을 생성합니다.
출력이 실제 데이터처럼 보이기 때문에 이것이 가장 위험한 오류 모드입니다. 셀에 숫자가 있고, 일치하는 날짜와 올바르게 보이는 이름이 있지만, 합계가 틀리고 라인 항목이 정렬되지 않아 자동화의 목적을 무효화하는 완전한 수동 검증 없이는 추출을 신뢰할 수 없습니다.
해결 방법 — 두 가지 옵션:
하이브리드 PDF의 모든 페이지를 고해상도 이미지로 변환(Adobe Acrobat의 모든 이미지 내보내기 또는 무료 변환기 사용)한 후, 이미지를 다시 단일 이미지 전용 PDF로 결합합니다. 이제 모든 페이지가 균일하게 이미지가 되어 추출 도구를 혼란스럽게 하는 혼합 레이어가 없습니다.
적합 대상: 이미지 기반 PDF를 잘 처리하지만 혼합 레이어에 혼란을 겪는 도구를 사용하는 사용자.
ImageToTable.ai를 포함한 일부 AI 추출 도구는 기본적으로 렌더링된 페이지를 이미지로 읽어 모든 PDF를 처리합니다. 즉, 텍스트 레이어를 무시하고 전체 문서를 시각적으로 처리합니다. 이는 도구가 두 개의 다른 데이터 소스를 조정하려고 시도하지 않기 때문에 하이브리드 문제를 완전히 우회합니다.
적합 대상: 대량의 공급업체 문서를 처리하고 처리 전에 각 파일을 검사할 여유가 없는 사용자.
평탄화 vs 전환 — 실용적인 의사 결정 프레임워크
다음은 식별한 유형에 따라 PDF 추출 문제를 진단하고 해결하기 위한 빠른 참조입니다:
| 진단 결과 | 해결 방법 | 예상 정확도 |
|---|---|---|
| 텍스트 기반, 깔끔하게 추출됨 | 조치 불필요 — 도구와 파일이 호환됨 | >95% |
| 텍스트 기반, 열이 깨져서 추출됨 | 이미지로 평탄화 후 비전 AI 도구 사용 | 평탄화 후 >95% |
| 이미지 전용, 스캔 품질 양호 | OCR 또는 비전 AI 도구 사용 | 90–99% |
| 이미지 전용, 스캔 품질 불량 | 원본 문서 개선 후 비전 AI 사용 | 70–90% (원본 의존적) |
| 혼합형 (페이지 혼재) | 전체 파일 평탄화 또는 이미지 전용 모드 사용 | 조치 후 이미지 전용 비율과 동일 |
평탄화 방식(모든 페이지를 깨끗한 이미지로 변환)은 세 가지 PDF 유형 모두에 적용되는 범용 해결책입니다. 이는 임시방편이 아닌, 추출 파이프라인에서 형식 모호성을 제거하기 위한 의도적인 전략입니다. 모든 페이지가 균일하게 이미지가 되면 추출 도구가 일관된 단일 방법을 적용하여 출력이 예측 가능해집니다.
이 의사 결정 프레임워크는 PDF 유형 문제를 다룹니다. 열 구조가 올바르고 PDF 유형이 적절한데도 추출된 숫자가 지속적으로 틀리다면(합계가 소계로 나오거나 날짜가 다른 날짜와 바뀌는 경우), 추출 열 정의 방식에 문제가 있을 수 있습니다. 모호한 열 이름은 추출 숫자 오류의 가장 흔한 원인 중 하나이며, 보통 "합계"를 "총 납부 금액"으로 바꾸는 간단한 수정으로 해결됩니다.
자주 묻는 질문
"모든 페이지에서 텍스트 선택이 가능한데, 추출 결과가 깨져 나오는 이유는 무엇인가요?"
텍스트 선택이 가능하다는 것은 텍스트 레이어가 존재한다는 뜻이지만, 그 레이어가 올바르게 구성되어 있다는 보장은 없습니다. 일부 PDF 생성기는 비표준 문자 인코딩이나 CMap 테이블을 사용하는 텍스트 레이어를 만듭니다. 이는 화면에서는 올바르게 표시되지만(PDF 리더가 자체 폰트 렌더링을 적용), 추출 도구가 해석하기는 어렵습니다. 이런 경우 파일을 이미지 전용 PDF로 간주하고, 페이지를 시각적으로 읽는 도구를 사용하세요.
"하나의 도구로 세 가지 PDF 유형을 모두 처리할 수 있나요?"
네, 텍스트 레이어가 아닌 문서를 시각적으로 읽는 도구라면 가능합니다. 텍스트 레이어 추출에만 의존하는 도구(대부분의 PDF-to-text 라이브러리, Excel의 내장 PDF 가져오기)는 텍스트 기반 PDF만 처리할 수 있습니다. ImageToTable.ai와 같은 비전 AI 도구는 각 페이지를 이미지로 렌더링하여 사람이 읽는 방식과 동일하게 처리하므로 모든 PDF 유형을 일관되게 처리합니다.
"사용 중인 도구가 지원하는 PDF 유형을 알려주지 않습니다. 어떻게 확인하나요?"
이미지 전용 PDF(스캔 문서로, 아무것도 선택되지 않는 파일)에서 텍스트 선택 테스트를 실행해 보세요. 도구가 데이터를 추출한다면 시각적 읽기나 OCR 기능을 사용하는 것입니다. 빈 결과를 반환한다면 텍스트 레이어에 의존하는 것입니다. 대부분의 단순 PDF 파서는 후자에 해당합니다.
"모든 종이 문서를 더 높은 해상도로 스캔하면 문제가 해결되나요?"
더 높은 해상도는 이미지 전용 PDF의 OCR 정확도를 향상시키지만, 근본적인 문제는 해결되지 않습니다. 이미지 전용 PDF에는 여전히 기존 도구가 읽을 텍스트 레이어가 없습니다. 추출 도구가 시각적 읽기를 지원하지 않는다면 600 DPI 스캔도 아무것도 반환하지 않습니다. 스캔 품질만 높이지 말고 도구를 업그레이드하세요.
"받은 PDF가 이미 다른 사람이 OCR 처리한 경우에는 어떻게 되나요?"
OCR 처리된 PDF는 스캔 이미지 위에 보이지 않는 텍스트 레이어가 추가된 것입니다. 텍스트 선택 테스트가 작동하고(텍스트가 강조 표시됨), 대부분의 추출 도구가 성공합니다. 하지만 원본 이미지 품질은 여전히 중요합니다. 원본 스캔이 좋지 않으면 OCR 텍스트 레이어에 문자 오류가 포함될 수 있으며, 추출 도구가 이를 그대로 가져옵니다. 일부 비전 AI 도구는 내장된 텍스트 레이어를 신뢰하지 않고 이미지를 직접 다시 OCR하도록 설정할 수 있어, OCR 품질이 낮은 문서의 정확도를 높일 수 있습니다.
어떤 유형의 PDF를 다루고 계신지 잘 모르시겠나요? 샘플을 업로드하여 비전 기반 도구가 어떻게 처리하는지 확인해보세요. 회원가입이 필요 없습니다.
파일로 PDF 추출 테스트하기