스캔 문서를 Word로 변환하는 방법표가 그대로 유지되는 (2026 가이드)

"실제로 성공한 사람 있나요?" 이 질문이나 비슷한 말은 r/pdf에서 매우 자주 등장해 하나의 좌절 게시물 장르가 되었습니다. 상황은 항상 같습니다. 표가 포함된 스캔 PDF — 수수료 일정이 있는 계약서, 3년 비교 표가 있는 재무 보고서, 병합된 컬럼 헤더가 있는 연구 논문 — 를 PDF-to-Word 변환기에 넣으면, 텍스트는 대부분 맞지만 표는 정렬이 어긋난 셀, 분할된 병합 헤더, 사라진 컬럼 경계선으로 뒤죽박죽이 된 문서가 나옵니다. 표를 보존하는 변환기를 찾는 것은 더 나은 도구를 찾는 문제가 아닙니다. 왜 모든 변환기 범주가 설계상 표를 망가뜨리는지, 그리고 실제 대안이 무엇인지 이해하는 문제입니다.

수작업 입력은 그만 — AI가 대신 읽어드립니다
이미지나 PDF를 업로드하세요 — 10초 만에 정형 데이터로
지금 체험하기
회원가입 불필요 · 카드 불필요 · 10초 내 결과
AI 비전 기술로 표, 컬럼, 레이아웃을 그대로 유지하며 스캔 문서를 편집 가능한 Word로 변환

핵심 요약

  1. PDF는 표를 저장하지 않습니다 — 흩어진 문자 좌표만 저장하며, 모든 기존 변환기는 이를 컬럼과 행으로 재조립하려는 추측 기계일 뿐입니다.
  2. OCR 정확도 98%에서 한 페이지 텍스트는 20~40개의 문자 수준 오류를 발생시킵니다 — 각 오류는 병합된 셀을 분할하고, 헤더를 떼어내며, 5행 표를 복구 불가능한 12행 난장판으로 만들 수 있습니다.
  3. 비전 AI는 사람처럼 표를 읽습니다 — 전체 페이지를 시각적 장면으로 보기 때문에 "변환 후 깨진 표를 고치는" 개념이 사라지고, 대신 네이티브 Word 표를 바로 편집하게 됩니다.

스캔된 PDF 표가 Word 변환에서 항상 깨지는 이유

문제는 선택한 변환 도구에 있는 것이 아닙니다. PDF 형식 자체와 광학 문자 인식(OCR)이 개입될 때 발생하는 일에 있습니다.

PDF 파일은 ISO 32000-2:2020 국제 표준에 따라 문서를 단락, 표, 제목이 아닌 개별적으로 배치된 객체의 평면적인 집합(각 문자는 고정된 X/Y 좌표에, 각 선은 별도의 그래픽 명령어로)으로 저장합니다. 이 형식은 어떤 화면이나 프린터에서도 페이지가 동일하게 보이도록 보장하지만(시각적 충실도), 해당 객체 간의 논리적 관계는 저장하지 않습니다. PDF에서 표는 파일 형식에게 표가 아닙니다. 사람의 눈에는 표처럼 보이는 위치가 지정된 문자와 규칙 선의 격자일 뿐입니다.

Word나 다른 저작 도구에서 직접 만든 디지털 PDF의 경우 문자 좌표가 파일에 포함됩니다. 그러나 스캔된 문서의 경우 — AIIM 2025 IDP 설문조사에 따르면 지능형 문서 처리 워크플로의 61%는 여전히 종이를 포함합니다 — 텍스트는 선택 가능한 문자로 존재하지 않습니다. 이미지의 픽셀로 존재합니다. Word 변환이 이루어지기 전에 OCR은 해당 픽셀을 다시 문자로 바꿔야 하며, 여기서 표 구조에 대한 실제 손상이 시작됩니다. 이에 대한 자세한 내용은 대부분의 사용자가 생각하는 것보다 PDF-to-Word 형식 손실이 더 심각한 이유에 대한 심층 분석에서 확인할 수 있습니다.

OCR은 3단계 연속 과정으로 작동합니다. 1단계: 스캔된 이미지에서 개별 문자를 인식합니다. 2단계: 근접성을 기준으로 해당 문자를 단어와 줄로 그룹화합니다. 3단계: 해당 그룹 간의 공간적 관계로부터 더 높은 수준의 구조(어떤 단어가 어떤 셀에 속하는지, 어떤 셀이 어떤 행을 구성하는지, 어떤 행이 어떤 표를 구성하는지)를 추론합니다. 각 단계는 오류를 발생시키고, 각 단계의 오류는 다음 단계로 전달됩니다. 1단계에서 잘못 인식된 문자는 2단계에서 잘못 그룹화된 단어를 생성하고, 이는 3단계에서 열 구분을 추론하는 데 사용되는 공간적 경계를 변경합니다. 변환기가 Word 표를 만들려고 할 때쯤이면 원본 문서 구조가 아닌 연속된 부정확성을 가지고 작업하게 됩니다.

이상적인 조건에서도 인쇄된 텍스트에 대한 기존 OCR 정확도는 대규모 디지털화 프로그램에서 확립된 벤치마크에 따라 문자 오류율(CER) 1~2%(98~99% 정확도)에서 최고치를 기록합니다 (Docsumo OCR 정확도 분석). 2,000자가 있는 페이지의 경우 20~40자의 잘못 읽힌 문자가 발생하며, 각각은 후속 레이아웃 재구성을 혼란스럽게 할 만큼 단어 경계를 약간 이동시킬 수 있습니다. 그리고 이것은 좋은 시나리오입니다. 저품질 스캔, 희미한 인쇄물 또는 복잡한 다중 열 레이아웃의 경우 CER은 급격히 상승합니다.

핵심 문제는 OCR 정확도가 아닙니다. OCR은 문자와 좌표만 출력할 수 있고 표 구조는 절대 출력할 수 없다는 점입니다. 출력물의 모든 표 정보 바이트는 불완전하고 잠재적으로 오류가 가득한 좌표 맵에 대해 교육된 추측을 수행하는 변환기에 의해 추론되었습니다.

표가 망가지는 다섯 가지 방식 — OCR이 해결할 수 없는 이유

PDF 도구 전문 기업으로 30년 이상의 경험을 가진 Mapsoft는 PDF에서 Word로 변환할 때 표가 어떻게 망가지는지에 대한 드문 기술적 분석을 발표했습니다 (Mapsoft, 2025). 이들이 분류한 다섯 가지 반복적인 오류 유형은 사용자들이 포럼에서 매일 겪는 문제를 잘 보여줍니다:

1
병합된 셀이 개별 셀로 분할됨. 두 열에 걸쳐 있던 헤더 셀이 두 개의 독립된 셀로 변환되며, 내용이 분할되거나 한쪽에만 들어가고 다른 쪽은 비어 있습니다. 수동 해결: 분할된 병합을 하나씩 찾아 다시 병합해야 합니다.
2
여러 줄 셀이 별도 행으로 변환됨. 셀 내용이 두 줄로 나뉘어 표시될 때, 변환기가 각 줄을 별도의 행으로 처리하는 경우가 많습니다. PDF의 5행 표가 Word에서 12행 표가 됩니다 — 처음부터 다시 만들지 않으면 구조적으로 고칠 수 없습니다.
3
테두리 없는 표가 완전히 사라짐. 원본 문서에 셀 테두리가 없으면 변환기가 내용이 표 형식임을 인식하지 못합니다. 표가 일반 문단 덩어리로 변하고, 텍스트만 보고 표 구조를 수동으로 재구성해야 합니다.
4
헤더가 데이터에서 분리됨. 표 헤더 역할을 해야 할 행(굵은 글씨로 "Q1 매출", "Q2 매출" 같은 레이블)이 구조화되지 않은 표 본문 위에 별도 문단으로 떠 있습니다. 잘라서 붙여넣을 수는 있지만, Word가 정렬 및 수식 참조에 의존하는 의미론적 헤더 관계는 사라집니다.
5
숫자 정렬이 사라짐. 정확한 PDF 텍스트 위치에 의존하는 오른쪽 정렬 통화 열이 왼쪽 정렬 텍스트로 변환됩니다. 재무 열의 모든 셀 정렬을 수동으로 재설정해야 하며, 소수점이 맞지 않으면 분석에 사용할 수 없게 됩니다.

이것들은 예외적인 사례가 아닙니다. 이는 표를 저장한 적 없는 파일 형식으로부터 소프트웨어가 논리적 구조(표)를 재구성하도록 요청했을 때 예측 가능하게 발생하는 결과입니다. 그리고 실패는 누적됩니다. 변환된 Word 문서를 열어보니 5행짜리 표가 분할된 헤더와 정렬이 틀어진 열로 인해 12행이 되어 있다면, 단순히 하나의 오류를 수정하는 것이 아닙니다. 첫 번째 실수(병합된 셀 분할)가 두 번째 실수(분리된 헤더)를 식별하기조차 더 어렵게 만드는, 연쇄적인 오류를 수정하는 것입니다.

Mapsoft의 실무 조언은 단호합니다. "중요한 표(재무제표, 규제 제출 자료, 구조화된 데이터 표)의 경우, 가능하다면 PDF에서 변환하지 마십시오. 원본 Word, Excel 또는 CSV 파일을 확보하십시오." 하지만 이 조언은 원본 파일이 있을 때만 유효합니다. 스캔된 문서(서명된 계약서, 보관된 보고서, 원본 작성 파일이 수년 전에 분실된 연구 논문)의 경우 원본 파일이 없습니다. 스캔본이 원본입니다.

비전 AI가 표를 읽는 방식 vs. OCR이 표를 추측하는 방식

모든 OCR 기반 변환의 병목 현상은 동일한 단계, 즉 재구성입니다. OCR은 표를 문자와 좌표로 분해한 다음, 변환기가 이 조각들을 원본과 유사한 형태로 재조립하도록 요청합니다. 이 과정은 본질적으로 파괴적입니다. 표 구조(병합된 셀, 함께 속하는 행, 열 경계를 형성하는 선)에 대한 정보는 처음부터 추출되지 않았으므로, 공간적 관계만으로 추론되어야 합니다.

비전 AI — 현대 이미지-구조화 데이터 도구를 구동하는 모델 클래스 — 는 근본적으로 다른 접근 방식을 취합니다. 문자를 하나하나 읽은 다음 좌표 근접성으로 구조를 재구축하려고 시도하는 대신, 비전 모델은 전체 페이지를 하나의 시각적 장면으로 봅니다. 사람이 표를 이해하는 방식과 동일하게, 행과 열을 포함하는 테두리 직사각형이 라는 것, 두 열에 걸쳐 있는 셀이 병합된 셀이라는 것, 맨 윗줄의 굵은 텍스트가 헤더라는 것을 단 한 번의 시각적 이해 과정으로 인식합니다.

이 차이는 점진적이지 않습니다. 재구성 단계를 완전히 제거합니다. 모델은 이미지 → 구조화된 출력으로 직접 이동하며, OCR을 취약하게 만드는 문자→좌표→추론의 연쇄 과정을 거치지 않습니다. 특히 표의 경우, 병합된 셀은 그대로 유지되고, 여러 줄로 된 셀 내용은 하나의 셀에 남으며, 테두리가 없는 표도 사라지지 않습니다. 모델이 흩어진 텍스트 조각으로부터 표 구조를 추론하려고 시도하는 대신, 표 구조를 보았기 때문입니다.

IBM Research가 Docling/TableFormer 모델에 대해 발표한 벤치마크는 특화된 ML 표 추출의 한계를 보여줍니다. PubTables 벤치마크에서 평균 정확도 93.6% — 인상적이지만 여전히 6.4%의 셀이 틀렸습니다 (Kramer, 2025 벤치마크). Tabula와 Camelot 같은 전통적인 도구는 동일한 벤치마크에서 각각 67.9%와 73.0%를 기록했습니다. 68%와 94% 정확도의 차이는 "대부분의 표가 정리 후 사용 가능함"과 "대부분의 표가 복구 불가능할 정도로 망가짐"의 차이입니다. 그리고 완벽함까지의 6.4% 격차는, 표를 이해하기 전에 분해하지 않는 올바른 아키텍처가 잘못된 패러다임 내에서의 점진적인 정확도 향상보다 왜 더 중요한지를 보여줍니다.

비전 모델이 문서 구조를 이해하는 방식에 대한 전체 개요는 AI가 문서를 읽고 이해하는 방법에 대한 설명을 참조하세요. 표를 보존하는 데 있어 핵심은 비전 모델이 좌표 근접성이 아닌 시각적 의미론(테두리, 정렬, 공백, 글꼴 두께)을 기반으로 작동한다는 점입니다. A~C 열에 걸쳐 있는 병합된 셀은 사람의 눈에도, 비전 모델에도 병합된 셀로 보입니다. 둘 다 이를 흩어진 텍스트 조각이 아니라 하나의 시각적 객체로 인식하기 때문입니다.

단계별 가이드: 스캔 문서를 표가 유지된 편집 가능한 Word로 변환하기

표가 깨지는 이유를 이해하는 것과, 스캔 문서를 표가 제대로 작동하는 편집 가능한 Word 파일로 만드는 것은 별개의 문제입니다. 다음은 그 과정입니다.

1
문서 유형 확인. PDF가 디지털 방식으로 생성된 경우(Word에서 파일 → 다른 이름으로 저장 → PDF), Microsoft Word에서 파일 → 열기를 통해 직접 열 수 있습니다. Word의 내장 변환기는 디지털 PDF의 간단한 표를 비교적 잘 처리합니다. PDF가 스캔된 문서라면(텍스트가 이미지이며 선택 불가능), 이 단계를 건너뛰세요. Word 변환기는 파일에 변환할 문자가 없기 때문에 결과가 엉망이 됩니다. PDF 내장 텍스트 데이터가 아닌 시각적 이미지에서 작동하는 도구가 필요합니다.
2
접근 방식 선택: OCR 파이프라인 또는 Vision AI. OCR 경로(Adobe Acrobat Pro, Abbyy FineReader, OCR 활성화 온라인 변환기)는 텍스트를 추출하지만 표 구조 보존을 보장할 수 없습니다. 위에서 설명했듯이 표 구조는 파일에 존재한 적이 없고 OCR이 이를 볼 수 없기 때문입니다. Vision AI 경로는 전체 페이지를 시각적 장면으로 보고 표를 재구성해야 할 텍스트 조각이 아닌 일관된 객체로 이해하는 모델을 사용합니다. 표 무결성이 중요한 스캔 문서의 경우, Vision AI 경로가 사용 가능한 Word 파일과 수동 수정에 몇 시간이 필요한 파일을 구분짓는 요소입니다.
3
업로드 및 처리 — 템플릿이나 학습 불필요. Vision AI 도구를 사용하면 스캔한 PDF(또는 사진)를 업로드하고 To Word 출력 모드를 선택하면 모델이 전체 페이지를 한 번에 처리합니다. To Word 모드는 ImageToTable.ai의 To Table 모드(특정 데이터 필드를 스프레드시트로 추출)와 다릅니다. 전체 문서 레이아웃(제목, 단락, 표, 이미지 및 열 구조)을 편집 가능한 Word 문서로 보존합니다. 표 주위에 영역을 그리거나, 샘플 문서로 모델을 학습시키거나, 페이지의 어느 부분이 표 형식인지 지정할 필요가 없습니다. 모델이 페이지를 보고 직접 네이티브 Word 요소로 매핑합니다.
4
Word에서 검토 및 편집 .docx 파일을 다운로드하여 Microsoft Word에서 여세요. 표는 네이티브 Word 표여야 하며, 정렬, 표 스타일 적용, 행/열 추가/삭제, 열 너비 조정이 가능합니다. 제목은 의미론적으로 표시되어야 하며, 텍스트는 완전히 편집 가능해야 합니다. 병합된 셀, 열 정렬, 여러 줄 셀 내용이 있는 표를 확인하세요. 이 부분이 기존 변환기가 실패하고 Vision AI의 페이지 수준 이해가 가장 큰 차이를 만드는 영역입니다. 셀 조정이 필요하더라도, 올바르게 구조화된 표에서 단일 셀만 수정하면 됩니다. 정렬되지 않은 텍스트 조각으로 전체 표를 다시 만들 필요가 없습니다.

문서에 추출해야 할 표 형식 데이터와 보존해야 할 레이아웃이 모두 포함된 경우, 이는 서로 다른 접근 방식이 필요한 두 가지 문제입니다. 문서 변환과 문서 추출에 대한 가이드에서 각각의 방법을 언제 사용해야 하는지 설명합니다. 또한 표가 많은 문서를 편집을 위해 Word로 변환하는 것과 분석을 위해 표 데이터를 스프레드시트로 추출하는 것은 근본적으로 다른 작업인 이유를 다룹니다.

JPG/PNG/PDF AI 기반 Word 변환

파일은 안전하게 처리되며 저장되지 않습니다.

원본 소스 파일이 없을 때 대처 방법

스캔 문서를 Word로 변환하는 가장 흔한 시나리오는 가장 난감한 경우이기도 합니다. PDF를 생성한 원본 Word, Excel 또는 InDesign 파일이 사라진 것입니다. 5년 전에 서명하고 스캔한 계약서, 퇴사한 컨설턴트가 PDF로 이메일 보낸 재무 보고서, 복사본으로만 존재하는 연구 논문. 의지할 "소스 파일"이 없습니다.

바로 여기서 OCR과 비전 AI의 차이가 이론에 그치지 않게 됩니다. 원본 파일 없이 스캔 PDF만 있을 때, 모든 기존 변환기는 동일한 OCR→문자→좌표→추론→재구성 파이프라인을 강제합니다. 출력물에는 오류가 생기고, 그 오류는 구조가 가장 중요한 문서 요소인 표에 집중됩니다. 일부 추정에 따르면, 깨진 표를 수정하는 데 처음부터 다시 입력하는 것보다 더 많은 시간을 소비하게 될 것입니다.

비전 AI 경로는 스캔을 있는 그대로, 즉 문서의 사진으로 취급합니다. 모델은 표를 보고, 구조를 시각적으로 이해하며, Word로 매핑합니다. PDF에서 텍스트를 "선택 가능"하게 만들 필요가 없습니다. 원본 제작 파일이 필요하지 않습니다. 표가 어디 있는지, 열이 몇 개인지 알려줄 필요도 없습니다. 여러분이 보고 있는 바로 그 페이지를 보기만 하면 됩니다.

어떤 변환 도구가 어떤 문서 시나리오에 가장 적합한지 더 폭넓게 알아보려면, 2026년 최고의 PDF to Word 변환기 총정리에서 무료 온라인 도구부터 비전 AI까지 전체 범위를 다루며, 각 카테고리가 보존할 수 있는 것과 없는 것에 대한 솔직한 평가를 제공합니다.

옵션 비교: 기존 변환기 vs. 비전 AI

기능기존 변환 도구
(Adobe Acrobat, Word, 온라인 도구)
Vision AI
(ImageToTable.ai → Word)
디지털 PDF (텍스트 선택 가능)양호 — 파일 내 문자 데이터 사용 가능우수 — 전체 페이지 구조 파악
스캔 PDF (이미지 전용)불안정 — OCR 연쇄 과정이 표 구조를 훼손강력 — 시각적 페이지를 직접 인식
단순 표 (단일 헤더 행, 병합 없음)양호 — 기본 격자 추론 가능우수 — 직접 시각적 매핑
복잡한 표 (셀 병합, 다중 레벨 헤더)예측 가능하게 손상 — 병합 셀 분할, 헤더 분리유지 — 병합을 시각적 객체로 인식
테두리 없는 표실패 — 격자 추론을 위한 시각적 단서 부재유지 — 정렬을 통해 표 레이아웃 식별
다단 페이지 레이아웃일관성 없음 — 단이 예측 불가능하게 병합 또는 분할유지 — 단 흐름 인식
필요한 설정간단한 변환 시 불필요; 스캔 시 OCR 언어 선택없음 — 업로드, Word 모드 선택, 처리
변환 후 정리 작업표 복잡도에 따라 수 분~수 시간최소 — 병합 및 여러 줄 셀만 확인

기존 변환 도구도 나름의 역할이 있습니다. 텍스트 위주의 단순한 서식(메모, 단일 컬럼 보고서, 편지)을 가진 디지털 PDF라면 Word 내장 변환기나 Adobe Acrobat의 내보내기 기능으로 충분히 쓸만한 결과를 얻을 수 있습니다. 하지만 표가 등장하는 순간, 특히 스캔 문서의 경우 OCR 재구성 파이프라인이 병목이 됩니다. 그리고 아무리 OCR 정확도를 개선해도, 보존하려는 바로 그 구조를 처음부터 제거하는 패러다임을 고칠 수는 없습니다.

레이아웃을 보존하는 문서-Word 변환 완벽 가이드는 PDF 내부 구조부터 실용적인 도구 선택까지 전체 지식 스펙트럼을 다루며, 이 주제 클러스터의 중심 허브입니다.

자주 묻는 질문

스캔한 PDF를 바로 Microsoft Word에서 열 수 있나요?

시도는 가능하지만, Word의 내장 PDF 변환기는 스캔한 PDF에서 텍스트를 추출할 수 없습니다. 파일에 텍스트가 아닌 텍스트 이미지만 있기 때문입니다. Word는 이미지를 편집 불가능한 그림으로 열거나 빈 문서를 생성합니다. 변환 전에 OCR이나 Vision AI로 스캔 문서에서 텍스트를 추출해야 합니다. OCR을 사용하더라도 Word 변환기는 위에서 설명한 이유로 표 처리가 어렵습니다.

Adobe Acrobat Pro는 스캔한 PDF를 Word로 변환할 때 표를 보존하나요?

Adobe Acrobat Pro는 Word로 내보내기 전에 자동으로 실행되는 내장 OCR을 포함합니다. 명확한 테두리와 병합된 셀이 없는 단순한 표의 경우 결과가 대개 만족스럽습니다. 병합된 셀, 다중 레벨 헤더, 테두리 없는 레이아웃 같은 복잡한 표의 경우 동일한 OCR 재구성 한계가 적용됩니다. Acrobat은 표 구조를 볼 수 없으며 OCR 출력에서 추론만 가능하고, 추론은 불안정합니다.

"Word로" 모드와 "표로" 모드의 차이점은 무엇인가요?

Word로 모드는 전체 문서(텍스트, 표, 이미지, 열, 서식)를 원본처럼 편집 가능한 Word(.docx) 파일로 보존합니다. 문서 자체를 편집해야 할 때 사용합니다. 표로 모드는 하나 이상의 문서에서 특정 데이터(예: 송장 번호나 날짜)를 추출하여 스프레드시트로 정리합니다. 단일 문서 편집이 아닌 여러 문서의 데이터를 분석해야 할 때 사용합니다. 스캔 문서를 표가 유지되는 편집 가능한 형식으로 변환하는 것이 목표라면 Word로 모드가 적합합니다.

Vision AI가 스캔 문서의 손글씨 표를 처리할 수 있나요?

Vision AI는 손글씨 텍스트와 표 구조를 인식할 수 있지만, 정확도는 손글씨 가독성에 따라 달라집니다. 눈에 띄는 테두리나 일관된 정렬이 있는 명확하게 작성된 표는 잘 변환됩니다. 고르지 않은 행에 낙서된 메모나 필기체가 심한 글씨는 신뢰도가 낮아집니다. 동일한 시각적 이해 원칙이 적용됩니다. 모델이 사용자처럼 페이지를 보지만, 손글씨는 인쇄된 텍스트에는 없는 변동성을 도입합니다.

스캔 문서를 변환하는 데 얼마나 걸리나요?

Vision AI 도구를 사용하면 스캔한 단일 페이지를 처리하는 데 일반적으로 5~10초가 소요되며, 수동 재입력의 평균 3분과 비교하면 약 18배의 효율성 향상입니다. 여러 페이지 문서의 경우 각 페이지가 순차적으로 처리됩니다. 표가 복잡한 페이지는 시간이 조금 더 걸릴 수 있지만, 총 시간은 수동 재구성에 필요한 시간의 극히 일부에 불과합니다.

표를 유지하면서 스캔한 PDF를 Word로 무료로 변환할 수 있는 방법이 있나요?

OCR 기능이 있는 무료 온라인 변환기(Smallpdf, PDF2Go, Xodo)는 스캔한 PDF에서 텍스트를 추출할 수 있지만, 표 보존은 일관성이 없고 특히 병합된 셀이나 테두리가 없는 표와 같은 복잡한 레이아웃의 경우 품질이 낮은 경우가 많습니다. Adobe Acrobat Pro의 내보내기 기능은 더 나은 결과를 제공하지만 구독이 필요합니다(월 약 $15). Vision AI 도구는 무료 티어를 제공하므로, 구독 전에 자체 문서에서 변환 품질을 테스트할 수 있습니다.

📮 contact email: [email protected]