PDF를 구조화된 데이터로 변환하는 방법
코드 한 줄 없이
"PDF에서 데이터를 추출하는 방법"을 검색하는 대부분의 사람들은 이미 당연한 방법을 시도해봤습니다. 텍스트를 선택하고, 복사한 다음, Excel에 붙여넣는 것입니다. 결과는 엉망이었죠. 열이 정렬되지 않았고, 데이터의 절반이 한 셀에 들어갔습니다. 여러분이 잘못한 것이 아닙니다. PDF는 원래 데이터를 쉽게 내어주도록 설계되지 않았기 때문입니다. 이 가이드는 실제로 작동하는 모든 방법을 다루며, 하나의 질문을 중심으로 구성됩니다: 어떤 종류의 PDF를 다루고 계신가요?
핵심 요약
- PDF에서 복사-붙여넣기를 했는데 데이터가 한 셀에 엉망으로 들어가면, 보통 자신을 탓하게 됩니다. 하지만 스캔된 PDF에는 복사할 텍스트 자체가 없으며, 붙여넣기를 반복해도 달라지지 않습니다.
- Excel의 내장 PDF 가져오기 기능과 모든 기본 추출 도구는 동일한 숨은 한계를 공유합니다. 파일에 이미 포함된 텍스트만 읽을 수 있으며, 실제 대부분의 PDF는 텍스트가 전혀 포함되지 않은 스캔 문서입니다.
- 한 가지 방법이 네이티브 PDF, 스캔 PDF, 하이브리드 PDF 등 세 가지 유형을 모두 처리합니다. 이 방법은 사람의 눈이 사진을 읽는 방식처럼 픽셀을 직접 읽기 때문에, 복사-붙여넣기로 한 개를 처리하는 시간에 50개를 일괄 처리할 수 있습니다.
PDF 데이터가 그냥 '복사'되지 않는 이유
PDF는 구조화된 데이터가 아닌 시각적 레이아웃을 저장합니다. PDF에서 텍스트를 복사하면 어떤 열이나 행에 속했는지에 대한 정보 없이 흩어진 문자만 가져오게 됩니다. PDF는 처음부터 그 관계를 저장하지 않았기 때문입니다.
PDF는 기본적으로 고정 레이아웃 캔버스입니다. "합계: $1,240.00"라는 텍스트가 3페이지의 좌표 (400, 600)에 표시되어야 한다는 것은 기억합니다. 하지만 "$1,240.00"이 표에서 "합계" 필드의 값이라는 것은 전혀 기억하지 못합니다. 마치 화이트보드 사진이 어떤 글머리 기호가 어떤 제목에 속하는지 기억하지 못하는 것과 같습니다.
이것이 일부 추출 방법은 작동하고 다른 방법은 크게 실패하는 이유입니다. 핵심은 어떤 종류의 PDF를 가지고 있느냐에 달려 있습니다:
소프트웨어(Word → PDF 저장, QuickBooks 내보내기)로 생성됨. 숨겨진 텍스트 레이어가 포함되어 있어 텍스트 선택 및 복사가 가능합니다. 대부분의 기본 도구가 읽을 수 있습니다.
종이 문서를 사진 찍어 PDF로 저장한 것. 텍스트 레이어가 없으며 모든 문자가 픽셀일 뿐입니다. 도구가 읽으려면 OCR(광학 문자 인식)이 필수입니다.
혼합형: 1페이지는 네이티브 텍스트, 2~5페이지는 종이 양식 스캔본. 실제 문서에서 흔함 — 대부분의 도구가 스캔된 페이지를 처리하지 못합니다.
어떤 유형인지 아는 것이 첫 번째 결정 포인트입니다. PDF 뷰어에서 텍스트를 선택하고 복사할 수 있다면 네이티브 PDF입니다. 텍스트 위를 클릭하고 드래그해도 아무것도 선택되지 않으면 스캔된 것이며, 아래 방법 1과 2는 실패합니다. 일부 페이지만 텍스트 선택이 가능하다면 하이브리드이며, 두 가지를 모두 처리할 수 있는 도구가 필요합니다.
방법 1: 복사-붙여넣기 (확장성 없는 빠른 테스트)
복사-붙여넣기는 오직 한 가지 경우에만 유용합니다: 표가 없는 단일 페이지의 일반 텍스트로 된 네이티브 PDF. 그 외 모든 경우에는 절약하는 시간보다 더 많은 정리 작업을 만들어냅니다.
과정은 간단합니다: PDF를 열고, 필요한 내용을 선택한 후 Excel이나 Google Sheets에 붙여넣기만 하면 됩니다. PDF가 네이티브이고 데이터가 단순하다면(짧은 이름과 숫자 목록, 표 구조 없음), 30초면 끝납니다.
문제는 표가 포함될 때 시작됩니다. PDF에서 표를 복사하여 Excel에 붙여넣으면 열이 종종 하나의 뒤섞인 텍스트 열로 합쳐집니다. 각 행이 하나의 긴 문자열이 됩니다. 그런 다음 텍스트 나누기 기능으로 열을 수동으로 분할하고, 정렬이 잘못된 행을 수정하며, 교정하는 데 10분을 소비하게 됩니다. 30초면 끝날 거라 예상했던 문서 말이죠. Reddit의 r/excel 게시판에서 사용자들은 이를 "일주일 중 가장 큰 시간 낭비"라고 자주 표현합니다.
복사-붙여넣기가 적합한 경우: 1~2개의 네이티브 PDF, 표 없음, 일회성 작업. 적합하지 않은 경우: 스캔된 PDF(선택할 내용 없음), 표가 있는 문서, 반복 작업이 필요한 모든 경우.
방법 2: Excel의 내장 PDF 가져오기 (한계가 명확한 도구)
Excel의 "PDF에서 가져오기" 기능은 깔끔하고 단순한 표가 있는 네이티브 PDF를 비교적 잘 처리합니다. 하지만 PDF가 스캔되었거나, 복잡한 서식이 있거나, 일관되지 않은 레이아웃으로 여러 페이지에 걸쳐 있는 경우에는 제대로 작동하지 않습니다.
Excel 2016부터 Microsoft는 직접 PDF 가져오기 기능을 포함했습니다: 데이터 → 데이터 가져오기 → 파일에서 → PDF에서. 파일을 선택하면 탐색기 패널에 Excel이 감지한 표와 페이지가 표시됩니다. 표를 선택하고 로드를 클릭하면 스프레드시트에 데이터가 들어옵니다.
QuickBooks에서 내보낸 가격표처럼, 단일하고 잘 정리된 표가 있는 네이티브 PDF의 경우 이 기능은 깔끔하게 작동합니다. 추가 소프트웨어가 필요 없고, 복사-붙여넣기가 필요 없으며, 표 구조가 유지됩니다.
하지만 이상적인 경우를 벗어나면 한계가 빠르게 드러납니다:
- 스캔된 PDF는 아무것도 반환하지 않습니다. Excel의 가져오기 기능은 텍스트 레이어를 읽습니다. 스캔된 문서에는 텍스트 레이어가 없습니다. 즉, 이미지일 뿐입니다. 탐색기 패널에 0개의 표와 0페이지의 사용 가능한 데이터가 표시됩니다. 이는 Microsoft 자체 Q&A 포럼에서 사용자들의 가장 큰 불만 사항입니다.
- 일관되지 않은 레이아웃의 여러 페이지 문서는 깨집니다. 1페이지에 헤더 블록이 있고 2페이지에 다른 표 구조가 있는 경우, Excel은 종종 데이터를 여러 개의 분리된 개체로 나누어 수동 재조립이 필요하게 만듭니다.
- 복잡한 표는 파서를 혼란스럽게 합니다. 병합된 셀, 줄 바꿈 텍스트, 여러 줄 헤더 등 실제 송장과 보고서에서 사용되는 서식은 데이터가 잘못된 열에 들어가는 행을 생성합니다.
- 일괄 처리 기능이 없습니다. 한 번에 하나의 파일만 처리할 수 있습니다. 20개의 송장을 처리해야 한다면 가져오기 작업을 20번 반복해야 합니다.
한 Reddit 사용자가 이렇게 잘 요약했습니다: "튜토리얼을 봤을 때는 정말 유망해 보였어요. 그런데 공급업체가 보낸 실제 구매 주문서에 적용해 보니, 라인 항목이 하나의 뒤죽박죽된 단락으로 나오더군요."
Excel 가져오기가 적합한 경우: 단순하고 일관된 단일 표 레이아웃의 네이티브 PDF. 적합하지 않은 경우: 스캔된 PDF, 여러 페이지 문서, 복잡한 서식, 일괄 처리.
방법 3: AI 기반 추출 (다른 모든 방법이 실패할 때 작동하는 방법)
AI 추출은 특정 좌표에서 텍스트를 찾지 않습니다. 사람이 문서를 읽는 방식으로 읽습니다 — "총 납부액" 옆에 있는 "$1,240.00"이 총 납부액임을 이해합니다. 이 단어들이 페이지의 어디에 있든, 문서가 네이티브든 스캔본이든 손글씨든 상관없습니다.
이것이 전통적인 OCR 기반 도구와 현대 AI 추출의 근본적인 차이점입니다. 전통적인 OCR(광학 문자 인식)은 한 가지 작업을 수행합니다: 텍스트 이미지를 기계가 읽을 수 있는 문자로 변환합니다. 하지만 그 문자가 무엇을 나타내는지는 이해하지 못합니다. 전통적인 OCR 엔진은 "청구서 #: 4521"을 보고 문자열 "청구서 #: 4521"을 출력합니다 — "4521"이 청구서 번호라는 개념이 없으며, 날짜나 금액이 아니라는 것도 모릅니다.
AI 추출 도구는 대규모 비전 모델을 사용합니다 — 이미지 인식 뒤에 있는 것과 동일한 기술이지만, 문서 구조에 대해 훈련되었습니다. 단순히 텍스트를 읽는 것이 아니라 각 데이터 조각의 의미적 역할을 인식합니다. 도구에 "청구서 번호 찾기"라고 지시하면, 페이지 전체를 스캔하여 청구서 번호처럼 보이는 것을 찾습니다 — "청구서 #" 또는 "Inv No."와 같은 레이블 근처의 짧은 영숫자 문자열 — 이 레이블이 인쇄되었든, 타자되었든, 손글씨로 쓰였든, 페이지의 어느 구석에 있든 상관없습니다.
실제로는 사용자 정의 열 추출을 지원하는 도구를 사용한다는 의미입니다: 원하는 필드 이름 — "청구서 번호", "날짜", "총액", "공급업체명" — 을 입력하면 AI가 문서 어디에서든 각 값을 찾아내며, 그 값이 어디에 위치하는지가 아니라 무엇을 의미하는지 이해합니다. 동일한 공급업체의 내일 청구서에서 총액이 페이지의 다른 위치로 이동하더라도 AI는 이를 찾아냅니다. 다음 문서가 네이티브 PDF 대신 스캔된 PNG라도 AI는 동일한 방식으로 처리합니다.
송장에서 직접 사용해보기
아래 데모는 실시간 AI 추출 도구입니다. PDF, JPG 또는 PNG 형식의 송장을 업로드하거나 제공된 샘플을 사용하여 원하는 필드를 찾아내는 과정을 확인하세요.
파일은 안전하게 처리되며 저장되지 않습니다.
AI 추출이 다른 방법으로는 처리할 수 없는 것들
- 스캔된 PDF 및 사진. 텍스트 레이어가 필요 없습니다. AI가 픽셀을 직접 읽어 문서 사진을 보는 것처럼 처리합니다.
- 필기체. 필기체 합계, 손으로 쓴 날짜, 동그라미 친 체크박스 — 다양한 필기체로 학습된 AI 모델이 인쇄체에 최적화된 OCR 엔진이 놓치는 부분을 추출합니다.
- 혼합 문서. 1페이지는 원본, 2~5페이지는 스캔본인 경우 AI 추출은 모든 페이지를 동일한 파이프라인으로 처리하므로 문서 중간에 도구를 전환할 필요가 없습니다.
- 일괄 처리. 업로드에 송장 50개를 넣고 열을 한 번 정의하면 50개 행이 모두 포함된 엑셀 파일 하나를 얻을 수 있습니다. 수작업으로 몇 시간 걸리던 작업이 1분 미만의 실시간 작업으로 줄어들며, 단일 페이지 문서 기준으로 수동 입력보다 약 18배 빠릅니다.
- 일관되지 않은 레이아웃. 다섯 공급업체가 각기 다른 형식의 송장을 사용하면 기존 도구는 작동하지 않습니다. AI 추출은 위치가 아닌 의미를 찾기 때문에 다섯 가지 다른 레이아웃에서도 일관된 출력 테이블을 생성합니다.
AI 추출은 마법이 아닙니다 — 같은 문제에 대한 근본적으로 다른 접근 방식입니다. 복사-붙여넣기와 엑셀 가져오기가 "텍스트가 어디 있나요?"라고 묻는 반면, AI 추출은 "이 텍스트의 의미는 무엇인가요?"라고 묻습니다. 이 의미 기반 접근 방식은 데이터 추출 소프트웨어가 계산된 값과 같은 예외 사례를 처리할 수 있게 합니다. 예를 들어 "라인 합계(수량 × 단가)"와 같은 열을 정의하면 AI가 추출 중에 결과를 계산하여 수동으로 계산해야 하는 원시 숫자 대신 완성된 숫자를 제공합니다.
어떤 방법을 사용해야 할까? 결정 가이드
올바른 방법은 PDF 유형, 처리해야 할 파일 수, 데이터를 어떻게 사용할지에 따라 달라집니다.
실제로 중요한 요소별로 직접 비교해 보겠습니다:
| 요소 | 복사-붙여넣기 | Excel 가져오기 | AI 추출 |
|---|---|---|---|
| 네이티브 PDF | ✓ 가능 | ✓ 가능 | ✓ 가능 |
| 스캔 PDF / 사진 | ✗ 복사할 텍스트 없음 | ✗ 텍스트 레이어 없음 | ✓ 픽셀 직접 읽기 |
| 손글씨 | ✗ | ✗ | ✓ |
| 복잡한/다중 페이지 표 | ✗ 완전히 깨짐 | ⚠ 종종 깨짐 | ✓ 의미 기반 추출 |
| 일괄 처리 (10개 이상) | ✗ | ✗ 한 번에 하나씩 | ✓ 하나의 출력 표 |
| 문서당 속도 | ~3분 (수동) | ~1분 + 정리 | 5~10초 |
| 필요한 소프트웨어 | 없음 | Excel 2016 이상 | 추출 도구 |
빠른 의사 결정 흐름
PDF에서 텍스트를 선택하고 복사할 수 있나요?
예 → 일반 PDF입니다. 방법 1, 2, 3 모두 가능 — 분량과 복잡성에 따라 선택하세요.
아니요 → 스캔된 PDF입니다. AI 추출(방법 3)이 필요합니다.
문서가 몇 개인가요?
데이터가 간단한 일반 PDF 1~2개 → 복사-붙여넣기 또는 Excel 가져오기로 충분합니다.
3개 이상이거나 정기적으로 작업하는 경우 → AI 추출 도구 사용. 시간 절약 효과가 누적됩니다.
문서의 레이아웃이 일정하지 않나요?
PDF마다 출처와 형식이 다르다면 → AI 추출을 사용하세요. 다른 방법들은 일관된 구조에 의존해야 안정적으로 작동합니다.
결론: PDF가 일반 형식이고, 서식이 일정하며, 소량만 처리한다면 Excel의 기본 가져오기 기능이 훌륭한 무료 옵션입니다. 하지만 스캔 문서, 필기, 다양한 레이아웃, 대량 처리 등 조건이 하나라도 맞지 않는다면 — AI 추출이 세 가지 PDF 유형 모두에서 별도 도구 없이 작동하는 유일한 방법입니다.
자주 묻는 질문
기본 도구가 네이티브 PDF에서만 작동하는 이유는 무엇인가요?
기본 도구는 PDF에 내장된 텍스트 레이어(보이지 않는 문자 데이터)를 읽기 때문입니다. 스캔된 PDF에는 텍스트 레이어가 없고, 단지 종이의 이미지일 뿐입니다. 읽을 문자가 없으면 추출할 내용도 없습니다. 이미지 자체를 읽을 수 있는 OCR이나 AI 비전 기능이 있는 도구가 필요합니다. 스캔된 PDF 데이터를 Excel로 변환하려면 이러한 추가적인 이미지 이해 계층이 필요합니다.
Excel의 'PDF에서 가져오기'를 사용했는데 결과가 엉망이었습니다. 무엇이 문제였을까요?
가장 가능성 높은 원인: PDF가 스캔된 문서(텍스트 레이어 없음)여서 Excel 가져오기 도구가 읽을 내용이 없는 경우입니다. 다른 일반적인 원인으로는 페이지마다 표 구조가 다른 여러 페이지 문서, 셀 병합, 또는 파서를 혼란스럽게 하는 복잡한 서식 등이 있습니다. 이는 사용자 오류가 아니라 도구 작동 방식의 한계입니다.
AI 추출의 정확도는 어느 정도인가요?
깨끗한 문서의 인쇄된 텍스트의 경우, 최신 AI 추출 도구는 최대 99%의 정확도를 달성합니다. 이는 세심한 인간 타이피스트에 필적하는 수준입니다. 필기체의 경우 가독성에 따라 85~95%로 떨어지므로, 최고의 도구는 최종 확정 전에 결과를 검토할 수 있는 기능을 제공합니다. 수동 입력 대비 정확도 향상은 단순한 숫자 이상의 의미가 있습니다. 바로 일관성입니다. AI는 인간처럼 47번째 문서에서 지치지 않습니다.
AI 추출 도구를 사용해도 내 문서는 안전한가요?
이는 특정 도구에 따라 다릅니다. 평판이 좋은 도구는 전송 중 및 저장 중인 데이터를 암호화하고, 파일을 영구 저장하지 않고 처리하며, 데이터 보호 규정을 준수합니다. 재무제표나 계약서와 같은 민감한 문서를 업로드하기 전에 항상 도구의 개인정보 보호정책과 데이터 처리 방침을 확인하세요.
PDF 데이터를 무료로 추출할 수 있나요?
가능하지만 제한이 있습니다. 복사-붙여넣기와 Excel의 내장 가져오기 기능은 무료이지만 네이티브 PDF에서만 작동합니다. AI 추출 도구의 무료 평가판을 사용하면 소수의 문서를 처리할 수 있습니다. 정기적으로 PDF를 추출해야 한다면, 도구 비용은 일반적으로 대체하는 인건비의 일부에 불과합니다. 대략적으로 계산해 보면: 문서당 3분이 소요되고 주당 20개를 처리한다면, 이는 1시간의 작업량입니다. AI 도구는 20개 모두를 약 3분 만에 처리하여 시간을 95% 단축합니다.
Google Sheets를 사용한다면?
Google Sheets에는 Excel처럼 PDF를 가져오는 기능이 내장되어 있지 않습니다. 복사-붙여넣기(위와 동일한 한계) 또는 Google Sheets로 직접 출력하는 AI 추출 도구를 사용할 수 있습니다. 일부 도구는 스프레드시트를 벗어나지 않고 PDF를 업로드하고 데이터를 추출할 수 있는 Google Sheets 애드온을 제공합니다.
방법 간의 차이는 단순히 속도만이 아닙니다. 오후 내내 복사-붙여넣기 결과를 교정하느냐, 아니면 이미 깔끔한 데이터로 작업하느냐의 차이입니다. AI 추출을 직접 PDF에 테스트해보세요. 문서당 3분이 10초로 바뀌는지 확인해보십시오.
ImageToTable.ai 무료 체험