스캔 문서 OCR 정확도가 낮은 이유?5가지 근본 원인과 해결법

문서 더미를 스캔하고 OCR을 돌렸는데, 결과가 온통 오류 투성이라면? 숫자가 글자 자리에 있고, 절반은 누락되었으며, 텍스트는 마치 믹서기에 갈린 듯한 모습일 겁니다. 5도만 기울어져도 단어 오류율이 15% 증가하며, 200 DPI 미만으로 스캔된 문서는 OCR 엔진이 작동하기 전부터 문자 정확도의 10~20%를 잃습니다. 문제는 거의 항상 엔진 자체가 아니라, 특정 이미지 결함과 엔진 처리 방식 간의 상호작용에 있습니다.

수작업 입력은 그만 — AI가 대신 읽어드립니다
이미지나 PDF를 업로드하세요 — 10초 만에 정형 데이터로
지금 체험하기
회원가입 불필요 · 카드 불필요 · 10초 내 결과
스캔 문서와 서류 더미 이미지. 품질이 낮은 스캔에서 OCR 정확도 문제를 보여줌

핵심 요약

  1. 스캔 문서 OCR 결과가 엉망일 때, 거의 항상 엔진 탓이 아닙니다. 다섯 가지 이미지 결함이 실제 원인이며, 각각 진단 가능한 특징이 있어 배울 수 있습니다.
  2. 겨우 3도 기울어짐은 단어 오류율을 15% 높이고, 150 DPI 스캔은 OCR 엔진이 파일을 처리하기 전에 문자 정확도의 20%를 조용히 잃게 만듭니다.
  3. 각 결함에는 특정 순서의 맞춤형 해결책이 있으며, 전처리가 한계에 도달하면 손상된 픽셀을 하나씩 싸우는 대신 문서의 의미를 읽는 다른 패러다임이 필요합니다.

스캔 문서는 디지털 네이티브 PDF와 근본적으로 다릅니다. 디지털로 생성된 문서는 텍스트가 깔끔한 벡터 형태로 존재합니다. 반면 스캔 문서는 인쇄된 페이지의 사진입니다. 사진에 있는 모든 이미지 결함은 OCR 엔진이 단 한 글자를 인식하기 전에 해결해야 할 문제가 됩니다. 사람 눈에 "거의 비슷해 보이는" 것이 픽셀 단위로 작업하는 알고리즘에게는 절망적으로 모호할 수 있습니다.

좋은 소식: 스캔 문서의 낮은 OCR 정확도는 예측 가능한 패턴을 따릅니다. 각 근본 원인은 진단 지문을 남기며, 어떤 결함을 다루고 있는지 파악하면 해결 방법은 반복 가능합니다.

원인 1 — 낮은 DPI: 가장 흔한 정확도 저하 요인

증상: 확대 시 문자가 계단처럼 보입니다. OCR이 비슷한 글리프를 혼동합니다 — 8B로, 5S로. 단어가 예기치 않게 끊기고, 구두점이 자주 누락됩니다.

발생 원인: DPI(인치당 도트 수)는 스캐너가 물리적 페이지 1인치당 캡처하는 픽셀 수를 결정합니다. 200 DPI 미만에서는 문자당 픽셀 수가 너무 작아져서 서로 다른 글리프 모양이 동일하게 보이기 시작합니다. 소문자 ec는 모두 몇 픽셀 크기의 덩어리가 됩니다. 150 DPI에서는 대부분의 엔진에서 문자 수준 정확도가 90% 미만으로 떨어집니다. 100 DPI(허리 높이에서 스마트폰 사진을 찍은 수준)에서는 작은 글자가 있는 문서에 정확도를 사용할 수 없게 됩니다.

해결 방법: 최소 300 DPI로 스캔하세요. 이는 OCR 업계 표준이며 파일 크기와 인식 품질의 균형을 맞춥니다. 10포인트 미만 텍스트의 경우 400–600 DPI로 높이세요. 다시 스캔할 수 없는 경우, 초해상도 업스케일링이 포함된 전처리 파이프라인을 통해 사용하기에는 너무 손상된 것처럼 보이는 이미지에서도 측정 가능한 정확도를 복구할 수 있습니다.

빠른 확인: 스캔 이미지를 100% 확대하여 여세요. 문자 가장자리가 매끄럽다면 DPI가 적절한 것입니다. 계단이나 눈에 띄는 정사각형 픽셀처럼 보인다면 임계값 미만입니다.

원인 2 — 기울어짐과 틸트: 페이지가 곧지 않을 때

증상: 텍스트 줄이 위나 아래로 기울어집니다. 일부 단어는 올바르게 인식되지만 같은 줄의 인접한 단어는 조각납니다. 표의 열이 어긋나고, 한 열에 속한 데이터가 다음 열로 넘어갑니다.

발생 이유: 기존 OCR은 텍스트가 수평 직선으로 이어진다고 가정합니다. 사람 눈에는 거의 보이지 않는 3도 기울기만으로도 문자가 엔진이 예상하는 기준선을 벗어납니다. 줄 분할 알고리즘이 단어를 여러 행으로 나누고, 엔진이 회전된 참조와 글리프를 매칭하려 하여 문자 인식이 실패합니다. 효과는 누적됩니다. 왼쪽 위에서 시작된 3도 기울기가 오른쪽 아래에서는 수 밀리미터의 오프셋이 됩니다.

해결 방법: 대부분의 전처리 라이브러리에는 자동 기울기 보정 기능이 포함되어 있습니다. 이 알고리즘은 지배적인 텍스트 각도를 감지하고 이미지를 회전하여 보정합니다. 기울기 보정은 이진화 전에 적용하세요. 이진 이미지는 각도 감지가 의존하는 미세한 그라데이션 정보를 잃습니다. 이것이 바로 비전 기반 AI 추출이 기존 OCR과 차별화되는 지점입니다. 비전 모델은 페이지를 전체적인 시각 장면으로 처리하며 회전에 본질적으로 더 강합니다.

원인 3 — 노이즈 및 압축 아티팩트

증상: 출력에 원본 페이지에 없는 추가 문자가 나타납니다. 무작위 점, 쉼표 또는 조각입니다. 깨끗한 흰 공간처럼 보이는 영역에서 추출 결과에 "유령 텍스트"가 나타납니다.

발생 이유: 소금-후추 노이즈(흑백 점)는 팩스 문서와 더러운 스캐너 유리로 스캔한 문서에서 흔합니다. JPEG 압축 아티팩트는 문자 가장자리 주변에 블록 모양의 왜곡을 만들어 OCR이 이를 글리프의 일부로 해석하게 합니다. 도장과 인장이 인쇄된 텍스트와 겹치면 문자 경계 감지가 혼란스러워집니다. 엔진은 도장 잉크와 인쇄 잉크를 분리하려다 둘 다 잘못 인식하는 경우가 많습니다.

해결 방법: 중간값 필터(커널 크기 3×3 또는 5×5)는 가우시안 블러보다 문자 가장자리를 보존하면서 소금-후추 노이즈를 제거합니다. JPEG 아티팩트의 경우 양방향 필터가 텍스트를 부드럽게 하지 않고 압축 경계를 완화합니다. 도장이 주요 문제라면, HSV 공간에서 색상 기반 필터링을 사용하여 OCR 전에 겹치는 도장 잉크를 분리하고 제거할 수 있습니다. 워터마크나 보안 인쇄와 같은 배경 패턴의 경우 적응형 임계값 처리(Otsu 또는 Sauvola)를 사용하세요. 이는 지역적 밝기 수준을 계산하고 페이지의 다른 영역에 다른 임계값을 적용하여 단일 전역 임계값으로는 불가능한 배경 억제와 문자 보존을 동시에 달성합니다.

원인 4 — 흐림 및 낮은 대비: 보이지 않는 텍스트

증상: 출력 결과에서 텍스트 줄 전체가 누락됩니다. 엔진이 감지하는 것은 단편적입니다 — 인식 가능한 단어 중간의 문자 누락, 부분적인 단어 등. 출력은 원본의 무작위 샘플처럼 보입니다.

원인: 바랜 잉크, 오래된 감열지, 카본 사본은 모두 동일한 문제를 공유합니다: 잉크와 종이 간 대비가 너무 낮아 OCR이 신뢰성 있게 분리할 수 없습니다. 엔진이 이미지를 이진화할 때 밝기 임계값 이하의 픽셀은 "배경"으로 분류되어 폐기됩니다. 잉크가 충분히 연하거나 종이가 충분히 누렇게 변하면 문자가 그냥 사라집니다. 감열지 영수증이 악명 높습니다: 인쇄되는 순간부터 이미지 레이어가 지속적으로 저하되며, 6개월 전에는 읽을 수 있었던 영수증이 지금은 빈 출력을 생성할 수 있습니다.

해결책: CLAHE(제한적 대비 적응형 히스토그램 평활화)가 가장 효과적인 기술입니다 — 균일한 영역에서 노이즈를 과도하게 증폭하지 않으면서 국소적 대비 차이를 증폭합니다. 클립 한계 2.0–3.0과 텍스트 크기에 맞는 타일 그리드 크기로 적용하세요. 균일하게 어두워진 감열지의 경우, 처리 전에 이미지를 반전하세요 — 엔진의 이진화가 어두운 배경의 밝은 텍스트에서 더 잘 작동할 수 있습니다. 불균일한 흐림의 경우, 적응형 이진화(Sauvola 방법)가 전역 방법보다 국소적 변동을 더 잘 처리합니다.

원인 5 — 접힘 및 물리적 손상

증상: OCR 출력을 가로지르는 어두운 띠가 나타나며, 띠를 따라 있는 문자는 누락되거나 쓰레기 값으로 대체됩니다. 접힌 선 근처에서는 텍스트가 변위되거나 중복되어 나타날 수 있습니다.

원인: 물리적 접힘은 스캔 시 그림자 선을 만듭니다 — 엔진의 이진화가 이를 전경 객체로 처리할 만큼 어둡습니다. 그림자와 교차하는 문자는 가려지거나 조각으로 분할됩니다. 심하게 구겨진 문서의 경우, 접힌 부분의 종이 높이 변화로 인해 페이지가 스캐너의 피사계 심도를 벗어나 그림자에 흐림 띠가 추가됩니다. 이 조합은 최악의 OCR 입력을 만듭니다: 높은 대비 변동, 초점이 맞지 않는 문자, 깨진 글리프 모양.

해결책: 인페인팅 — 주변 픽셀을 보간하여 손상된 영역을 채우는 방법 — 이 가장 효과적인 치료법입니다. OpenCV의 cv2.inpaint()와 Telea 알고리즘을 사용하면 기본 텍스트를 보존하면서 접힌 그림자를 제거합니다. 인페인팅 반경 3–5픽셀로 시작하세요. 텍스트가 물리적으로 제거된 찢어진 가장자리의 경우, 형태학적 팽창(이진 이미지에 2×2 커널)이 끊어진 획을 재연결하여 인식 불가능한 조각을 다시 읽을 수 있는 글리프로 바꾸는 경우가 많습니다.

여러 결함을 처리하는 전처리 파이프라인 구축

실제 스캔 문서 대부분은 하나 이상의 결함을 가지고 있습니다. 팩스로 전송된 계약서는 낮은 DPI와 노이즈 아티팩트가 함께 있을 수 있습니다. 오래된 구매 주문서는 희미한 잉크와 접힌 자국이 동시에 존재할 수 있습니다. 전처리 단계를 적용하는 순서가 중요합니다.

여러 품질 문제가 있는 스캔 문서에 권장되는 파이프라인 순서:

1
기울기 보정 — 페이지 회전을 먼저 교정합니다. 각도 감지는 필터링으로 그레이디언트 정보가 제거되기 전의 원본 그레이스케일 이미지에서 가장 잘 작동합니다.
2
노이즈 제거 — 중간값 또는 양방향 필터를 적용하여 텍스트 가장자리를 부드럽게 하지 않으면서 센서 노이즈, 팩스 아티팩트, 압축 블록을 제거합니다.
3
대비 향상 — CLAHE 또는 적응형 히스토그램 평활화를 사용하여 희미한 텍스트를 이진화 임계값 위로 끌어올립니다.
4
인페인팅 — 접힌 그림자, 스테이플 구멍, 접힌 자국을 제거합니다. 이들은 그렇지 않으면 텍스트 객체로 해석될 수 있습니다.
5
적응형 이진화 — 페이지 전체의 배경 변화에 적응하는 지역 임계값 방법(Sauvola 또는 Otsu)을 사용하여 흑백으로 변환합니다.

이 파이프라인은 이론에 그치지 않습니다. 여러 OCR 벤치마크에서 수천 개의 열화된 문서 이미지로 검증되었습니다. OCR 정확도 향상을 위한 전용 가이드에서는 언어 모델 기반 교정, 필드 수준 검증, 신뢰도 점수 등 추가 후처리 기법을 다룹니다.

전처리만으로 부족할 때

전처리를 통해 문서를 '읽을 수 없는' 상태에서 '사용 가능한' 상태로 만들 수 있지만, 한계가 있습니다. 원본이 더러운 평판 스캐너에서 72 DPI로 스캔된 후 팩스로 전송되고 다시 스캔된 경우, 알고리즘 기반 정리만으로 복구할 수 있는 데는 한계가 있습니다. 어느 순간 질문은 "이미지를 어떻게 수정할까"에서 "올바른 추출 방식을 사용하고 있는가"로 바뀝니다.

기존 OCR(Tesseract, ABBYY FineReader, 대부분의 클라우드 OCR API)은 개별 문자 모양을 인식하는 방식으로 작동합니다. 근본적으로 픽셀 수준에서 처리되므로 픽셀이 손상되면 출력도 손상됩니다. 최신 비전 기반 AI 추출은 문서를 전체적인 시각적 장면으로 읽습니다. 픽셀이 일부 누락되어도 문자 모양 템플릿이 아닌 의미를 기준으로 매칭하기 때문에 단어를 단어로 인식합니다.

이러한 차이는 여러 결함이 있는 문서에서 가장 두드러집니다. 희미한 보라색 인쇄, 스테이플 모서리로 인한 약간의 기울어짐, 공급업체 주소를 가로지르는 접힌 자국이 있는 카본 카피 송장의 경우, 기존 OCR은 60~70%의 필드 정확도를 보일 수 있습니다. 반면 비전 AI 도구는 접힌 그림자를 '텍스트가 아님'으로 처리하고 그 주변을 읽어 90% 이상의 정확도를 달성하는 경우가 많습니다. 문서 유형에 따라 정확도 저하에 대한 반응이 다르지만, 원칙은 일관됩니다. 픽셀에 손상이 있을 때는 패러다임 자체를 바꾸는 것이 해결책일 수 있습니다.

수작업 입력은 그만 — AI가 대신 읽어드립니다
이미지나 PDF를 업로드하세요 — 10초 만에 정형 데이터로
지금 체험하기
회원가입 불필요 · 카드 불필요 · 10초 내 결과

자주 묻는 질문

스캔 문서의 신뢰할 수 있는 OCR을 위한 최소 DPI는?

300 DPI가 업계 표준입니다. 200 DPI 미만에서는 대부분의 OCR 엔진에서 문자 수준 정확도가 눈에 띄게 저하됩니다. 150 DPI 미만에서는 표준 인쇄 텍스트의 정확도가 90% 아래로 떨어집니다. 텍스트가 10포인트보다 작은 경우 400–600 DPI를 권장합니다. 600 DPI 이상에서는 천장 효과가 있어 일반 문서 텍스트의 정확도 향상 없이 파일 크기만 증가합니다.

AI가 매우 낮은 품질의 스캔 문서에서 데이터를 추출할 수 있나요?

비전 AI 모델은 픽셀 단위가 아닌 의미론적으로 페이지를 처리하기 때문에 전통적인 OCR보다 이미지 결함에 훨씬 더 관대합니다. 사람의 눈으로 읽을 수 있는 문서는 거의 항상 추출 가능합니다. 단, 텍스트가 완전히 보이지 않는 문서(완전히 바랜 잉크나 물리적으로 찢어진 경우)는 예외입니다. 이미지에 존재하지 않는 데이터는 어떤 기술로도 복구할 수 없습니다.

기울기 보정이 OCR 정확도를 의미 있게 향상시키나요?

네. 5도 기울기는 전통적인 OCR 엔진의 단어 오류율을 10–15% 증가시킵니다. 10도에서는 손실이 30%를 초과할 수 있습니다. 기울기 보정은 처리 시간이 거의 들지 않고 일관된 개선 효과를 내는 ROI가 가장 높은 전처리 단계 중 하나입니다.

스캔에 저DPI와 노이즈가 모두 있다면 무엇을 먼저 수정해야 하나요?

노이즈를 먼저 수정한 다음 해상도를 처리하세요. 저해상도 이미지의 노이즈 제거는 그 반대보다 효과적입니다. 먼저 업스케일하면 텍스트와 함께 노이즈도 증폭됩니다. 이 가이드의 파이프라인 순서는 이 원칙을 따릅니다: 노이즈 제거 후 대비 향상, 대비 향상 후 해상도 관련 작업.

평판 스캐너 대신 스마트폰 사진을 사용할 수 있나요?

스마트폰 사진은 평판 스캐너에는 없는 원근 왜곡, 렌즈 흐림, 고르지 못한 조명을 유발합니다. 평판 스캐너를 사용할 수 있다면 더 일관된 결과를 얻을 수 있습니다. 휴대폰을 사용해야 한다면 페이지 바로 위에서 촬영하고, 균일한 자연광을 사용하며, 최대 해상도로 촬영하세요. 대부분의 최신 휴대폰은 충분히 가까이 대면 300 DPI 이상에 해당합니다.

체계적인 접근법이 승리한다

스캔 문서의 낮은 OCR 정확도는 무작위적이지 않습니다. 이는 식별 가능한 이미지 결함의 결과이며, 각각 알려진 메커니즘과 맞춤형 해결책이 있습니다. 대부분의 사람들이 저지르는 실수는 일반적인 "향상" 필터를 문제에 적용하는 것입니다. 밝기와 대비를 임의로 조정하며 무언가 효과가 있기를 바라는 것입니다.

체계적인 접근법은 더 간단합니다. OCR 출력을 살펴보고, 오류 패턴을 식별하고, 근본 원인을 추적한 후, 단일 해결책을 적용하는 것입니다. 낮은 DPI → 업스케일 또는 재스캔. 기울어짐 → 기울기 보정. 노이즈 → 중간값 필터. 흐려짐 → CLAHE. 접힘 자국 → 인페인팅. 문서에 여러 결함이 있는 경우, 의존성 순서대로 수정을 적용하세요. 노이즈는 해상도보다 먼저, 기울기 보정은 다른 모든 것보다 먼저.

올바른 순서로 올바른 수정을 적용했는데도 정확도가 워크플로우 요구 사항에 미치지 못한다면, 제약은 전처리가 아니라 추출 패러다임에 있습니다. 픽셀 모양이 아닌 의미로 문서를 읽는 비전 AI 도구가 사용 가능한 결과를 얻는 더 빠른 경로일 수 있습니다. 전처리만으로는 충분하지 않을 때 필드 수준 검증 및 정확도 확인 방법에 대해 자세히 알아보세요.

📮 contact email: [email protected]