작은 글꼴이 OCR 정확도를
망치는 이유 — 4가지 근본 원인과 해결책
계약서를 스캔하거나, 작은 글씨의 약관이 적힌 은행 거래 내역서에서 데이터를 추출하거나, 빽빽한 표가 포함된 스크린샷에서 항목 데이터를 가져오려고 시도한 적이 있을 것입니다. 10pt와 12pt 필드는 문제없이 추출되었습니다. 하지만 작은 글씨 — 6pt 각주, 7pt 법적 고지사항, 공급업체 견적서 하단의 작은 단가 — 는 쓰레기 값만 나오거나 아예 추출되지 않았습니다. 문제는 AI가 작은 글꼴을 읽지 못해서가 아닙니다. 문제는 물리 법칙입니다. 150 DPI에서 6pt 문자는 높이가 약 12픽셀에 불과합니다. 12픽셀로는 사람이든 기계든 "8"과 "6"을 구별하거나 "rn"과 "m"을 구분하기에 충분한 정보를 얻을 수 없습니다.
핵심 요약
- 150 DPI로 스캔한 6pt 문자의 높이는 12픽셀에 불과합니다. "8"과 "6"을 구분짓는 특징은 이 12픽셀 중 2픽셀을 차지하며, 스캐너 노이즈 한 픽셀이 그 차이를 지워버립니다. 이는 AI 문제가 아니라, 시중의 모든 추출 도구가 공유하는 물리 법칙의 문제입니다.
- 20픽셀 규칙: 문자의 높이가 20~25픽셀 미만이면 "rn"과 "m" 또는 "5"와 "S" 사이의 간격이 단 1픽셀의 모호성으로 줄어듭니다. 대부분의 사무용 MFP 스캐너는 기본 200 DPI로 설정되어 있어, 10pt 미만의 모든 텍스트를 이 위험 구역으로 밀어넣습니다. 본문 텍스트는 잘 추출되지만 표 값은 노이즈로 변합니다.
- 캡처되지 않은 픽셀을 추가할 수는 없지만, 물리 법칙과 싸우는 것은 멈출 수 있습니다. 작은 글꼴 문서는 400 DPI 이상으로 스캔하고, 워크플로우에 실제로 필요한 데이터에 대해서만 추출 컬럼을 정의하며, 7pt 미만 텍스트는 '고쳐야 할 실패'가 아닌 '절대 한계'로 취급하십시오.
문제는 AI가 아닌 물리입니다
OCR 엔진이나 비전 AI 모델이 작은 텍스트에서 실패할 때, 가장 먼저 드는 생각은 소프트웨어를 탓하는 것입니다. 하지만 진짜 병목 현상은 AI 처리가 시작되기 전에 발생합니다. 이는 글자당 사용 가능한 픽셀 수에 의해 결정됩니다.
수학을 살펴보겠습니다. 타이포그래피에서 '포인트'는 1/72인치입니다. 150 DPI(인치당 도트 수, 일반적인 팩스나 저가형 스캐너의 해상도)에서 문자의 픽셀 높이는 다음과 같습니다:
픽셀 높이 = 글꼴 크기(pt) × DPI / 72
150 DPI에서 6pt 문자의 경우:
6 × 150 / 72 = 12.5 픽셀
12픽셀은 운영 체제의 터미널 창에서 허용하는 가장 작은 글꼴 크기의 한 글자 높이와 거의 같습니다. 이제 그 크기에서 문자 내부에서 어떤 일이 발생하는지 생각해 보십시오. '8'과 '6'을 구분하는 특징(닫힌 위쪽 고리 대 닫힌 아래쪽 고리)은 기껏해야 2~3픽셀에 불과합니다. 스캐너 센서의 단일 픽셀 노이즈, 약간의 페이지 기울어짐, 또는 휴대폰 사진의 JPEG 압축 블록이 그 구분을 완전히 없앨 수 있습니다. 작은 크기에서 문자 'm'과 문자 쌍 'rn'은 동일한 2~3픽셀 열 너비를 차지하여 구조적으로 동일해집니다.
이것은 더 나은 AI 학습이나 더 정교한 OCR 후처리로 해결할 수 있는 문제가 아닙니다. 입력 신호에 어떤 인식 시스템이든 올바른 출력을 생성하는 데 필요한 정보가 누락되어 있습니다. 이 글의 모든 후속 수정은 이 제약을 우회하거나 줄이는 방법이지만, 제약 자체는 피할 수 없습니다.
문자에 실제로 필요한 픽셀 수는?
작은 글꼴이 실질적인 문제가 되는 시점을 이해하려면 글꼴 크기와 스캔 해상도를 픽셀 높이로 매핑해야 합니다. 문자 인식의 임계 기준은 유사한 문자를 안정적으로 구별하기 위해 대략 20-25픽셀의 문자 높이입니다:
| 글꼴 크기 | 150 DPI | 200 DPI | 300 DPI | 400 DPI | 600 DPI |
|---|---|---|---|---|---|
| 6 pt | 12 px ✗ | 17 px ✗ | 25 px ⚠ | 33 px ✓ | 50 px ✓ |
| 7 pt | 15 px ✗ | 19 px ⚠ | 29 px ✓ | 39 px ✓ | 58 px ✓ |
| 8 pt | 17 px ✗ | 22 px ⚠ | 33 px ✓ | 44 px ✓ | 67 px ✓ |
| 10 pt | 21 px ⚠ | 28 px ✓ | 42 px ✓ | 56 px ✓ | 83 px ✓ |
| 12 pt | 25 px ✓ | 33 px ✓ | 50 px ✓ | 67 px ✓ | 100 px ✓ |
✗ = 신뢰할 수 없음 ⚠ = 한계 수준 ✓ = 인쇄 텍스트에 일반적으로 신뢰 가능. 이는 문자 높이 추정치이며, 인식률은 획 두께, 대비 및 글꼴 디자인에 따라 달라집니다.
표를 보면 패턴이 명확해집니다. 표준 300 DPI에서 6pt 텍스트는 한계선에 있습니다. 많은 사무용 복합기와 대부분의 팩스 문서의 해상도인 200 DPI에서는 10pt 미만이 모두 한계 수준이거나 신뢰할 수 없습니다. 150 DPI(팩스 및 저품질 PDF에서 흔함)로 낮추면 12pt 이상만 신뢰할 수 있습니다.
원인 1: 스캔 해상도가 200 DPI 미만인 경우
작은 글꼴 추출 실패의 가장 흔한 단일 원인은 대상 텍스트에 비해 스캔 해상도가 너무 낮은 것입니다. 문제는 스캐너 하드웨어 자체가 부족해서가 아니라, 스캔 워크플로우가 읽기 쉬운 텍스트(~10-12pt 본문)에 맞춰 설계되었고 각주, 표 셀, 법적 고지사항, 양식 지침에 나오는 더 작은 문자에 맞게 조정되지 않았기 때문입니다.
200 DPI가 위험 임계값인 이유: 200 DPI에서 8pt 문자(많은 표 셀 값과 양식 레이블의 일반적인 크기)는 높이가 22픽셀에 불과합니다. "e"와 "c" 같은 문자는 열린 카운터(문자 내부 공간)가 1픽셀로 줄어들어 거의 구별이 불가능해집니다. "8"의 고리와 "6"의 둥근 부분은 동일한 2픽셀 수직 공간을 차지합니다. 이것이 팩스로 받은 인보이스와 스캔한 계약서에서 본문 텍스트는 괜찮아 보이면서 작은 글꼴 부분에서 추출 오류가 지속적으로 발생하는 이유입니다.
확인할 사항: 사무용 MFP(복합기)에서 기본 "표준 품질" 모드로 스캔한 PDF라면 거의 확실히 200 DPI입니다. 팩스로 전송된 문서는 발신자의 장비에 따라 100-200 DPI로 도착합니다. 추출 도구를 탓하기 전에 입력 이미지의 유효 DPI를 확인하세요. 이미지 뷰어에서 파일 속성을 열고 픽셀 너비를 물리적 페이지 너비(인치)로 나누십시오. 결과가 250 DPI 미만이고 문서에 10pt 미만의 텍스트가 포함되어 있다면 해상도가 근본 원인일 가능성이 높습니다.
이미지 품질이 다양한 문서 유형에서 추출 정확도에 미치는 영향에 대한 자세한 내용은 스캔 문서의 OCR 정확도 저하 가이드를 참조하십시오.
원인 2: 글꼴 선택이 해상도 문제를 악화시킴
모든 8pt 문자가 동일하게 생성되는 것은 아닙니다. 글꼴 디자인은 사용 가능한 픽셀 예산 중 실제로 인식에 사용할 수 있는 양을 결정합니다:
작은 크기에서의 산세리프 대 세리프. Times New Roman과 같은 세리프 글꼴은 문자 줄기 끝에 장식용 획(세리프)을 추가합니다. 10pt 이상에서는 이러한 세리프가 가독성을 돕습니다. 200 DPI 스캔에서 6-8pt에서는 세리프가 주 획과 합쳐져 문자를 예측 불가능하게 두껍게 만들고 인접 문자를 분리하기 어렵게 만듭니다. 산세리프 글꼴(Arial, Helvetica, Calibri)에는 이러한 추가 획이 없어 더 단순한 모양이 저해상도 스캔에서 더 잘 견딥니다. Tesseract 자체 문서와 여러 라이브러리 가이드에서는 OCR 친화적인 문서에 산세리프 글꼴을 구체적으로 권장합니다.
가는/라이트 글꼴 두께. 현대 브랜드 디자인, 재무 보고서 헤더, 미니멀 UI에서 인기 있는 글꼴 패밀리의 "Light" 또는 "Thin" 두께는 일반적인 스캔 해상도에서 너비가 1픽셀에 불과한 획을 사용합니다. 획 너비가 1픽셀이라는 것은 노이즈, 압축 아티팩트 또는 스캐너 센서 변동이 획을 끊거나(문자를 보이지 않게 만듦) 비대칭적으로 두껍게 만들어(문자 모양 변경) 문자를 손상시킬 수 있음을 의미합니다. 동일한 해상도에서 2-3픽셀 획 너비를 가진 볼드 및 레귤러 두께는 이러한 아티팩트에 대해 훨씬 더 큰 내성을 가집니다.
모호한 글리프가 있는 글꼴. 특정 글꼴 디자인은 OCR이 이미 어려워하는 문자를 더욱 어렵게 만듭니다. 예를 들어 Arial은 소문자 "l"(L)과 대문자 "I"(i)를 동일하게 렌더링합니다. 유일한 구별 신호는 맥락이며, 이는 전통적인 OCR이 부족합니다. 작은 크기에서는 남아 있는 시각적 차이(세리프 또는 줄기 높이의 픽셀 미만)가 완전히 사라지기 때문에 이러한 모호성이 더욱 악화됩니다.
실제 패턴을 보면, 문서의 작은 텍스트에 현대적인 가벼운 산세리프 폰트(유럽 은행 명세서, SaaS 인보이스, 투자 보고서에서 흔히 사용)를 사용할 경우, 더 굵거나 세리프가 강한 폰트에서도 읽을 수 있는 크기에서 추출 오류가 발생합니다. 폰트 선택 자체가 문제를 일으키는 것은 아니지만, 문제가 가시화되는 픽셀 높이를 결정합니다.
원인 3: 우선순위 없이 모든 것을 추출하려는 시도
이것은 기술적 문제라기보다는 워크플로우 설계 문제에 가깝지만, 작은 폰트 추출에서 가장 흔한 불만 원인 중 하나입니다.
많은 사용자가 페이지의 모든 내용(모든 라인 항목, 면책 조항, 각주, 여백 표기)이 추출되어야 한다는 마인드로 접근합니다. 은행 명세서 하단의 6pt 법적 면책 조항이 깨져 나오면 전체 추출이 실패한 것처럼 느껴집니다. 실제로는 본문 텍스트와 주요 재무 수치는 완벽하게 추출되었을 수 있으며, 실패는 실질적인 워크플로우에서 필요하지 않은 텍스트 부분에 국한된 것입니다.
필드 우선순위 전략: 추출 전에 문서 내용을 세 가지 버킷으로 분리하세요:
- 중요 필드(10pt 이상) — 인보이스 번호, 합계, 날짜, 공급업체명, 계좌번호, 보험증권 번호. 이들은 거의 항상 읽을 수 있는 폰트 크기로 설정되어 있으며 재정적 또는 운영적 중요성을 가집니다. 높은 신뢰도로 추출하세요.
- 보조 필드(8-10pt) — 참조 코드, 부서명, 세금 내역, 수량 필드. 보통 300 DPI에서 추출 가능하며, 낮은 해상도에서는 한계가 있을 수 있습니다. 이들은 샘플 확인 대상으로 표시하세요.
- 부수적 텍스트(8pt 미만) — 법적 면책 조항, 저작권 표시, 이용 약관, 페이지 바닥글, 작은 글씨 지침. 구조화된 데이터 워크플로우에서 거의 필요하지 않습니다. 이 필드의 오류가 전체 결과에 대한 신뢰도를 떨어뜨리지 않도록 추출에서 완전히 제외하는 것을 고려하세요.
사용자 정의 열 추출(필요한 열 이름을 입력하면 AI가 의미적으로 값을 찾는 방식)을 사용하는 AI 추출 도구를 사용할 때, 이 우선순위는 워크플로우에 설계상 내장되어 있습니다: 실제로 필요한 데이터에 대해서만 열을 정의하면 됩니다. AI는 요청하지 않은 문서 섹션에 처리 용량을 낭비하지 않습니다. 열에 작은 폰트 영역의 값이 포함된 경우, 신뢰도 점수가 수동 검토를 위한 자연스러운 플래그를 제공합니다.
동일한 원칙이 일괄 처리에도 적용됩니다: 50개의 공급업체 견적서를 추출하는데, 작은 글씨 약관이 혼합된 정확도로 모든 행에 포함된다면, 스프레드시트에 그 약관이 실제로 필요한지 자문해보세요. 대부분의 경우 답은 '아니오'이며, 이를 제외하면 추출 속도와 출력 품질 인식이 모두 개선됩니다.
원인 4: 스크린샷의 서브픽셀 렌더링 아티팩트
이 원인은 사람의 눈에는 거의 보이지 않지만(말 그대로) 가장 혼란스러운 추출 실패를 유발합니다. 스크린샷에만 영향을 미치지만, 문서 처리의 상당 부분이 스크린 캡처(대시보드 내보내기, 웹 포털 인보이스, 모바일 앱 스크린샷)로 시작하는 현실을 고려하면 대부분의 사람이 생각하는 것보다 더 많은 워크플로우에 영향을 줍니다.
최신 운영체제는 LCD 화면에서 텍스트 선명도를 높이기 위해 서브픽셀 렌더링(Windows의 ClearType, macOS의 Core Text)을 사용합니다. 이 기술은 각 화면 픽셀 내의 개별 빨간색, 녹색, 파란색 서브픽셀을 제어하여 텍스트 렌더링의 수평 해상도를 사실상 3배로 높입니다. 눈에는 작은 화면 텍스트가 선명하고 뚜렷하게 보입니다. 그러나 플랫 이미지로 스크린샷을 처리하는 OCR 엔진에는 문자 경계에 빨간색과 파란색 테두리(컬러 프린징)가 있는 텍스트가 입력되어 에지 감지, 이진화 및 문자 분할을 혼란스럽게 만듭니다.
임계값 처리(인식 전 이미지를 흑백으로 변환)에 의존하는 기존 OCR 엔진은 이 아티팩트에 특히 민감합니다. 이진화 단계에서 빨간색 서브픽셀 프린지가 있는 문자 가장자리를 만나면 프린지를 문자의 일부 또는 별도 객체로 해석할 수 있습니다. 어느 쪽이든 문자 경계가 예측 불가능하게 이동합니다. 일반 문서 크기(10-12pt)에서는 아티팩트가 문자에 비해 작아 OCR 엔진이 여전히 올바르게 추측할 수 있습니다. 6-8pt에서는 서브픽셀 프린지가 문자 획 자체만큼 넓어져 텍스트 대신 컬러 노이즈를 "읽는" 출력을 생성할 수 있습니다.
테스트 방법: 스크린샷에서 결과가 좋지 않지만 동일한 문서를 300 DPI로 스캔하면 잘 작동하고, 텍스트가 사람의 눈으로 화면에서 읽기 어려울 정도로 작다면 서브픽셀 렌더링이 원인일 가능성이 높습니다. 스크린샷을 찍기 전에 브라우저나 애플리케이션을 150%로 확대해 보세요. 그러면 문자당 픽셀 예산이 늘어나 서브픽셀 프린지가 비례적으로 작아집니다.
색상, 대비 및 크기 조정 문제를 포함한 스크린샷 특화 추출 문제에 대한 자세한 내용은 색상 배경과 워터마크에서 OCR 추출이 실패하는 이유를 참조하세요. 동일한 이미지 품질 원칙 중 상당수가 작은 텍스트가 있는 스크린샷에도 적용됩니다.
실제로 효과 있는 방법: 실용적인 해결 우선순위
아래 해결책은 효과가 크고 노력이 적은 순서에서 효과가 작고 노력이 많이 드는 순서로 정렬되어 있습니다. 위에서부터 시작하여 워크플로에 허용 가능한 정확도에 도달하면 중단하세요.
해결책 1: 작은 글씨 문서는 300+ DPI 목표
스캔 단계를 제어할 수 있다면, 이것이 가장 효과적인 조치입니다. 10pt 미만의 텍스트가 포함된 문서의 경우 표준 300 DPI 대신 400-600 DPI로 스캔하세요. 피츠버그 대학교의 OCR 모범 사례 가이드에 따르면 작은 글씨 문서에는 400-600 DPI가 권장됩니다. 단점은 파일 크기가 커지고 처리 속도가 느려진다는 점이지만, 작은 글씨 정확도가 중요한 페이지에서는 그만한 가치가 있습니다. 팩스나 이메일로 받은 문서처럼 출처를 제어할 수 없는 경우, 워크플로에서 해상도 한계를 알려진 제약 조건으로 기록하세요. 모든 문서를 동일한 정확도로 추출할 수는 없으며, 기대치를 적절히 설정하기만 하면 괜찮습니다.
해결책 2: 추출 설계에 필드 우선순위 적용
열 정의를 검토하고 작은 글씨의 부수적인 텍스트를 대상으로 하는 필드는 제거하세요. 6pt 바닥글에 있는 공급업체 등록 번호를 실제로 조정에 사용한 적이 없다면 해당 열을 삭제하세요. 제거하는 모든 열은 더 이상 검증이 필요 없는 낮은 신뢰도 출력의 원천입니다. 사용자 정의 열 추출을 사용할 때는 도구의 신뢰도 신호를 살펴보세요. 필드가 지속적으로 낮은 신뢰도 값을 반환한다면, AI가 실제로 추측하고 있을 정도로 원본 텍스트가 작은지 확인하세요. 그렇다면 수동 검증을 통해 필드를 유지할 가치가 있는지, 아니면 다른 방식으로 데이터를 가져올 수 있는지 결정하세요.
해결책 3: 초해상도 업스케일링 — 신중히 사용
AI 기반 업스케일링(초해상도, SR)은 기존 픽셀 사이에 새 픽셀을 보간하여 150 DPI 스캔을 겉보기 300 DPI로 확대할 수 있습니다. 작은 글꼴 텍스트에 대한 결과는 엇갈립니다. 단순한 최근접 이웃 또는 쌍선형 업스케일링은 새로운 정보를 추가하지 않으며, 동일한 12픽셀을 더 넓은 공간에 퍼뜨릴 뿐입니다. 문서 이미지로 훈련된 AI 초해상도 모델(SRGAN, ESRGAN, Real-ESRGAN)은 중간 정도 저하된 텍스트, 특히 인쇄된 고대비 문자에서 일부 획 세부 정보를 복구할 수 있습니다. 그러나 이미 구별되는 픽셀 특징이 부족한 작은 글꼴 텍스트의 경우, SR은 캡처되지 않은 특징을 만들어낼 수 없습니다. 시각적으로 더 부드러운 출력을 생성할 수는 있지만 문자 수준의 정확도는 실제로 향상되지 않을 수 있습니다. SR의 가장 신뢰할 수 있는 사용 사례는 이미 한계 해상도 스캔(예: 200 DPI에서 400 DPI)의 텍스트를 추출 도구에 전달하기 전에 확대하는 것입니다. 팩스 수준 해상도로 캡처된 텍스트를 SR이 구제할 것이라고 기대하지 마십시오.
업스케일링, 이진화, 기울기 보정 등 추출 전에 적용할 수 있는 전처리 기술에 대해서는 OCR 이미지 전처리 가이드를 참조하십시오.
해결책 4: 가능하면 더 나은 원본 문서 재요청
많은 전문 워크플로우, 특히 미지급금, 계약 관리, 세금 문서 처리에서는 더 나은 원본을 요청할 수 있는 옵션이 있습니다. 공급업체가 150 DPI로 팩스 송장을 보내고 7pt 라인 항목 설명을 일관되게 읽을 수 없는 경우, 공급업체에 디지털 PDF를 이메일로 보내달라고 요청하십시오. 하청업체가 서명된 양식의 복사본을 제출하는 경우, 원본이나 깨끗한 사진을 요청하십시오. 이 해결책이 항상 가능한 것은 아니지만(일부 레거시 공급업체는 팩스만 보내고, 일부 정부 양식은 고정 인쇄 형식으로만 제공됨), 팀이 생각하는 것보다 더 자주 가능합니다. 이메일 요청 한 번의 비용은 배치 전체에서 50개의 추출 오류를 수동으로 수정하는 비용보다 낮습니다.
현실적인 한계: 7pt 미만은 모든 시스템에서 신뢰할 수 없음
정확도 향상, 워크플로우 조정, 또는 도구 업그레이드로도 200 DPI 스캔에서 6pt 텍스트를 안정적으로 추출할 수 없습니다. 픽셀 예산이 턱없이 부족하기 때문입니다. 7pt 미만 인쇄 텍스트의 인식 정확도는 문자 수준에서 약 60-80%에 머물며, 이는 20-40%의 문자가 오독됨을 의미합니다. 전통적인 OCR 엔진이든 최신 비전-언어 모델이든 마찬가지입니다. 청구서에 있는 6pt 숫자는 필드 수준 99% 정확도로 추출할 수 없으며, 책임 있는 접근 방식은 디지털화 물리학이 지원할 수 없는 입력에 대해 워크플로우 최적화에 시간을 낭비하기보다 수동 검증 또는 생략을 계획하는 것입니다.
이 한계는 현재 운영 중인 모든 시스템에 적용됩니다. Tesseract나 레거시 OCR뿐만 아니라 Google Cloud Vision, Amazon Textract, 비전-언어 모델 기반 도구에도 동일하게 적용됩니다. 작은 글꼴 텍스트에서 이러한 도구 간의 차이는 몇 퍼센트 포인트에 불과하며, 자릿수 차이가 아닙니다. 비전 AI 모델은 7pt 미만 텍스트에서 주변 컨텍스트를 사용하여 누락된 문자를 추측하기 때문에 유리합니다. AI가 익숙한 청구서 헤더 중에서 "Inv_ice N_mber"를 보면 올바른 값을 추론할 수 있지만, 이러한 컨텍스트 기반 추측에도 한계가 있습니다. 특정 픽셀 임계값 이하의 문자가 진정으로 모호할 때, 추론은 기껏해야 교육된 추측에 불과합니다.
다양한 문서 유형 및 조건에서의 정확도 기대치에 대한 더 넓은 관점은 OCR 정확도 향상을 위한 실용 가이드를 참조하십시오.
자주 묻는 질문
더 비싸거나 특화된 AI 도구가 작은 글씨 추출 문제를 해결할 수 있나요?
부분적으로는 가능하지만 완전히 해결하지는 못합니다. 맥락 속의 텍스트를 처리하는 비전-언어 모델은 주변 데이터를 추론하여 일부 작은 글씨 문자를 복원할 수 있습니다. 예를 들어, "Invoic_ N_mber: INV-2026-0_4_"를 읽고 예상되는 송장 번호 형식을 기반으로 누락된 문자를 채우는 방식입니다. 이러한 맥락적 보정은 동일한 작은 글씨 입력에 대해 기존 OCR보다 필드 수준 정확도를 5~15% 포인트 향상시킬 수 있습니다. 그러나 근본적인 픽셀 예산을 바꾸지는 않습니다. AI가 픽셀 수준에서 "5"와 "S"를 구분하기에 입력 해상도가 너무 낮다면, 아무리 맥락적 추론을 해도 정답을 보장할 수 없습니다. 신뢰할 수 있는 해결책은 여전히 더 나은 원본 해상도입니다.
작은 글씨 추출을 더 잘하기 위해 스캔 대신 문서를 휴대폰으로 찍어도 되나요?
신뢰할 수 있는 방법은 아닙니다. 일반적인 거리(30-40cm)에서 1200만 화소 해상도로 찍은 휴대폰 사진은 문서의 유효 DPI가 약 150-200에 불과합니다. 이는 팩스보다는 낫지만 300 DPI 평판 스캔만큼 좋지는 않습니다. 더 중요한 점은, 휴대폰 사진은 원근 왜곡(휴대폰을 문서와 완전히 평행하게 유지하지 않는 한), 고르지 못한 조명, 그리고 잠재적인 모션 블러를 유발하여 작은 글씨를 더욱 손상시킨다는 것입니다. 휴대폰을 꼭 사용해야 한다면, 문서를 평평한 표면에 놓고 조명을 고르게 한 후, 휴대폰을 평행하게 유지하고 약간 줌(1.5-2배)하여 문서가 화면을 가득 채우도록 하세요. 이렇게 하면 나중에 자르는 광각 샷보다 더 나은 결과를 얻을 수 있습니다.
작은 글꼴의 경우 AI 추출이 기존 OCR보다 훨씬 더 나은가요?
한계 해상도(예: 200 DPI에서 7-8pt)의 작은 글꼴 텍스트의 경우, AI 추출은 일반적으로 기존 OCR보다 10-25% 포인트 더 나은 성능을 보입니다. 맥락적 이해 덕분에 AI가 문자 단위 OCR 엔진으로는 해결할 수 없는 모호성을 해결하는 데 유리하기 때문입니다. 매우 작은 텍스트(7pt 미만)나 매우 낮은 해상도(150 DPI 미만)에서는 두 시스템 모두 동일한 근본적인 픽셀 부족 문제에 직면하기 때문에 그 격차가 좁아집니다. 도구 선택은 맥락적 추론과 의미적 이해가 여전히 작동할 수 있는 한계 상황에서 가장 중요합니다. 이러한 접근 방식에 대한 자세한 필드 수준 비교는 AI OCR과 기존 OCR 정확도 비교를 참조하세요.
저해상도 이미지를 업스케일하면 작은 글꼴 OCR 정확도가 향상되나요?
예, 아니오입니다. 단순한 이미지 크기 조정(최근접 이웃 또는 쌍선형 보간)은 이미지를 더 크게 만들지만 정보를 추가하지는 않습니다. 문자는 여전히 동일한 픽셀 수준의 모호성을 가지며, 단지 더 많은 픽셀에 분산될 뿐입니다. 문서 이미지에 대해 훈련된 AI 기반 초해상도 모델은 일부 손실된 가장자리 정보를 복구할 수 있지만, 작은 글꼴 텍스트의 개선은 미미하며(일반적으로 5-10% 상대적 정확도 향상) 원본 이미지 품질에 크게 의존합니다. 업스케일링은 전처리 단계로 시도해 볼 가치가 있지만, 적절한 소스 해상도를 대체할 수는 없습니다. 더 높은 DPI의 원본으로 시작하는 것이 항상 더 신뢰할 수 있는 방법이며, 이는 이미지 전처리 가이드에서 논의된 바와 같습니다.
언어나 문자 체계가 작은 글꼴 추출을 더 어렵게 만드나요?
그렇습니다. 문자당 획 복잡도가 높은 문자 체계(데바나가리, 아랍어, 중국어, 일본어, 한국어)는 신뢰할 수 있는 인식을 위해 문자당 더 많은 픽셀이 필요합니다. 구별되는 특징이 더 많고 미세하기 때문입니다. 200 DPI에서 7pt 데바나가리 문자는 OCR로 사실상 읽을 수 없을 수 있지만, 동일한 해상도의 7pt 라틴 문자는 간신히 읽을 수 있을 수 있습니다. 문서에 비라틴 문자가 포함된 경우 그에 따라 최소 DPI 권장 사항을 높이십시오. 작은 텍스트가 있는 혼합 문자 문서의 경우 400 DPI가 상한선이 아닌 하한선으로 간주되어야 합니다.
작은 글꼴 추출에는 물리적 한계가 명확히 존재하지만, 그 한계 내에서 적절한 해상도, 필드 우선순위 지정, 도구 선택이라는 올바른 워크플로우 선택이 신뢰할 수 있는 배치와 다시 작업해야 하는 배치를 가릅니다. 직접 작은 글꼴 문서로 테스트하여 정확도 한계가 어디인지 확인해보십시오.
문서 추출 테스트하기