OCR 정확도가 떨어지는 이유:
필기, 스캔 PDF, 표 — 그리고 해결 방법
OCR 업체가 "99% 정확도"를 말할 때, 이는 거의 항상 깨끗하고 인쇄된 영어 텍스트에 대한 문자 단위 정확도를 의미합니다. 공급업체의 필기 납품서에 적힌 합계 금액이 정확히 인식될 것이라는 뜻이 아닙니다. 그 수치는 실제로 존재하지만, 단서가 붙습니다. 좋은 결과를 내도록 선별된 문서로 측정된 수치라는 점입니다. 책상 위에서 찍은 구겨진 영수증, 팩스로 스캔한 계약서, 볼펜으로 작성된 양식을 넣으면 동일한 도구가 60%, 40% 또는 그 이하의 정확도를 보일 수 있습니다. 정확도는 무작위로 떨어지지 않습니다. 입력하는 문서 유형에 따라 예측 가능한 방식으로 떨어집니다. 이러한 패턴을 이해하는 것이 올바른 도구를 선택하고 잘못된 도구를 탓하지 않는 차이를 만듭니다.
핵심 요약
- OCR 업체가 99% 정확도를 말하는 것은 거짓말이 아닙니다. 하지만 그 수치는 깨끗한 디지털 PDF에서 나온 것입니다. 필기, 휴대폰 사진, 복잡한 표로 바꾸면 동일한 엔진이 60% 미만으로 떨어집니다.
- 정확도 하락은 무작위가 아니라 예측 가능합니다. 필기체는 분할에 필요한 문자 간격을 없애고, 휴대폰 사진은 다섯 가지 왜곡을 동시에 발생시키며, 병합된 표 셀은 픽셀 수준 엔진으로는 해결할 수 없는 구조적 모호성을 만듭니다.
- 비전-언어 모델은 의미론적으로 읽습니다. "$"와 ".00" 사이의 번진 숫자가 8이 아닌 9임을 추론합니다. 이는 필기체와 표 셀을 읽을 수 있게 하는 동일한 메커니즘입니다. 가장 안 좋은 문서 세 개를 직접 테스트해보세요.
OCR 정확도에 대한 오해
시중의 모든 OCR 도구는 높은 정확도를 주장합니다. Tesseract, Google Cloud Vision, Amazon Textract 등 모두 95-99% 범위의 수치를 발표합니다. AIMultiple OCR 벤치마크에 따르면 주요 클라우드 OCR 서비스는 카테고리 1 문서(깨끗하고 대비가 높은 배경의 인쇄 텍스트)에서 99.2%를 초과합니다. 하지만 동일한 벤치마크는 다른 사실도 보여줍니다. 카테고리 3(손글씨 및 복잡한 레이아웃 문서)에서는 정확도가 54%에서 85% 사이로 급락합니다. 동일한 도구, 동일한 엔진입니다. 전적으로 어떤 종류의 문서가 입력되는지에 따라 45% 포인트 차이가 발생합니다.
기준 — 깨끗한 디지털 PDF
깨끗한 디지털 PDF(회계 소프트웨어에서 내보낸 인보이스, Word에서 저장한 계약서, 웹 포털에서 다운로드한 은행 명세서)는 모든 OCR 시스템에 이상적인 입력입니다. 텍스트는 선명하고, 글꼴은 표준이며, 대비는 거의 완벽합니다. 이러한 문서에서 최신 OCR 엔진은 일상적으로 99% 이상의 문자 정확도를 달성합니다. 남은 오류는 일반적으로 특수 합자, 매우 작은 글꼴 크기(6pt 미만) 또는 헤더의 장식 문자와 같은 극단적인 경우에 국한됩니다. 이것이 "99% 정확도" 주장의 근간이 되는 시나리오이며, 다른 모든 문서 유형이 측정 가능한 성능 저하를 나타내는 기준점입니다.
스캔 PDF — 품질 저하의 시작
스캔 PDF는 인쇄된 페이지의 사진이며, 이 이미지는 디지털 PDF에는 없는 여러 오류 원인을 도입합니다. 해상도 손실이 첫 번째입니다: 200 DPI로 스캔하면 엔진이 10포인트 문자의 높이를 약 8픽셀로 처리합니다. 일괄 스캔에서 흔한 150 DPI로 낮추면 동일한 문자가 겨우 6픽셀 높이가 됩니다. 엔진은 몇 픽셀로부터 획을 추측해야 합니다.
노이즈와 인공물이 또 다른 층을 추가합니다. 스캐너 센서는 입자를 도입하고, 종이 질감(신문 용지, 감열지, 재생 용지)은 엔진이 문자의 일부로 오해할 수 있는 패턴을 추가합니다. 기울어짐은 — 2-3도만 기울어져도 — 엔진이 문자를 분할하기 전에 회전을 보정하도록 강제하여 오류율을 눈에 띄게 증가시킵니다. 그리고 겹치는 콘텐츠 — 인쇄된 텍스트 위의 도장, 서명, 워터마크 — 는 픽셀 수준의 OCR로는 해결할 수 없는 모호성을 만듭니다. 인보이스 합계 위의 "PAID" 도장은 둘 다 읽을 수 없게 만듭니다.
깨끗한 인쇄 텍스트의 양호한 300 DPI 스캔은 여전히 95-98%의 문자 정확도를 달성합니다. 동일 문서의 저품질 150 DPI 스캔은 90% 미만으로 떨어질 수 있습니다.
필기체 — 근본적인 경계 문제
필기체 텍스트는 인쇄체의 더 어려운 버전이 아닙니다. 이는 근본적으로 다른 인식 문제입니다. 인쇄체 문자는 명확하고 일관된 경계(글자 사이의 간격, 균일한 기준선, 예측 가능한 형태)를 가지고 있습니다. OCR 엔진은 이러한 간격을 사용하여 인쇄된 단어를 개별 문자로 분할한 다음 각 형태를 라이브러리와 대조합니다. 이는 분할 신호(간격)가 신뢰할 수 있기 때문에 작동합니다.
필기체는 이러한 경계를 완전히 제거합니다. 글자가 연결됩니다. 한 문자의 끝이 다음 문자의 시작입니다. 소문자 "n" 뒤에 "i"가 오면 "u"와 동일하게 보일 수 있습니다. "r" 뒤에 "n"이 오면 "m"처럼 보일 수 있습니다. 엔진은 빠른 필기로 인해 간격이 의도적으로 제거되었기 때문에 단어를 분할할 수 없습니다.
업계 수치가 이를 확인합니다. AIMultiple의 벤치마크에 따르면 인쇄체에서 99%를 초과하는 기존 클라우드 OCR 서비스는 필기체에서 60-85% 범위로 떨어집니다. 지저분한 필기체나 인쇄체와 필기체가 혼합된 문서에서는 격차가 40% 포인트 이상에 이를 수 있습니다. 인쇄체 스타일의 필기(블록 대문자)는 경계를 유지하기 때문에 더 나은 성능을 보이지만, 무한한 형태 변동성이라는 자체 문제가 있습니다. 두 사람이 같은 방식으로 "G"를 쓰는 경우는 없으며, 모든 패턴 매칭 라이브러리에는 사각지대가 있습니다. 이를 처리하도록 설계된 도구에 대해서는 필기체 OCR 비교를 참조하세요.
휴대폰 사진 — 여러 열화 요인의 결합
스캔 문서가 2~3가지 요인으로 정확도를 저하시킨다면, 휴대폰 사진은 5~6가지를 동시에 결합합니다. 원근 왜곡이 가장 파괴적입니다. 휴대폰이 문서와 완벽하게 평행하게 유지되지 않는 한(거의 항상 그렇지 않음) 페이지가 비스듬히 촬영되어 문자 크기와 줄 간격이 이미지 전체에서 일관되지 않게 변하는 사다리꼴이 생성됩니다.
조명 변화가 문제를 복합시킵니다. 중앙의 밝은 부분, 가장자리의 그림자, 숫자 행을 가로지르는 그림자로 인해 문자가 합쳐져 보입니다. 미세한 손 떨림으로 인한 모션 블러는 문자 가장자리를 1-2픽셀 흐리게 만듭니다. 광택 용지의 반사와 눈부심은 텍스트의 전체 섹션을 완전히 지워버릴 수 있습니다.
누적 효과는 극적입니다. 디지털 PDF에서 99%를 기록하는 도구가 동일한 문서의 휴대폰 사진에서는 70% 미만으로 떨어질 수 있습니다. 정보는 모두 실제 페이지에 있지만, 이미지가 신뢰할 수 있는 인식 수준 이하로 저하시킨 것입니다.
복잡한 표와 셀 병합 — 구조가 무너질 때
표는 다른 종류의 도전 과제를 제시합니다. 문자를 읽는 문제가 아닙니다. 최신 OCR은 셀 안의 숫자를 꽤 정확하게 읽을 수 있습니다. 문제는 구조적입니다. 엔진은 각 값이 어떤 셀에 속하는지 결정해야 하며, 이를 위해서는 표의 문자뿐만 아니라 그리드를 이해해야 합니다. 셀 병합이 가장 흔한 장애물입니다. 세 열에 걸친 헤더, 두 행에 걸친 "참고" 셀, 첫 번째 열을 병합하는 소계 레이블 — 이러한 패턴은 대부분의 OCR 엔진이 표를 재구성할 때 사용하는 행별 가정을 깨뜨립니다.
학술 연구는 이것이 해결되지 않은 문제임을 확인합니다. 2024년 arXiv 연구에 따르면, 특화된 표 추출 모델조차 셀 병합과 불규칙 구조가 있는 복잡한 표에서 62-78%의 정확도만 달성합니다. 이는 단순 표 인식보다 20%포인트 이상 낮은 수치입니다. 중첩 표와 헤더 위치가 변하는 다중 페이지 표는 실패율을 더욱 높입니다. VLM 기반 추출은 표를 의미론적으로 읽습니다. "품목 설명"이 헤더가 몇 개의 셀을 차지하든 그 아래 열을 관장한다는 것을 인식할 수 있습니다. 필드 수준 정확도가 문자 측정항목과 어떻게 다른지에 대한 자세한 내용은 OCR 정확도의 실제 의미에 대한 가이드를 참조하세요.
실제로 제어할 수 있는 것
여러 정확도 요소는 사용자가 제어할 수 있으며, 이를 해결하면 엔진을 변경하는 것보다 더 큰 개선 효과를 얻을 수 있습니다:
문서 준비. 최소 300 DPI로 스캔하세요. 이는 보편적으로 권장되는 OCR 해상도입니다. 최대 대비를 위해 흰 종이에 검은 잉크를 사용하세요. 스캔 전에 접히거나 구겨진 문서를 펴십시오. 텍스트 줄을 가로지르는 주름은 데이터 누락과 같습니다.
도구 선택. 중요한 차별점은 도구가 패턴 매칭 OCR(Tesseract, 클래식 ABBYY, 대부분의 클라우드 API)을 사용하는지, 아니면 비전-언어 모델 추출(ImageToTable.ai 및 최신 LLM 기반 서비스)을 사용하는지입니다. VLM 기반 도구는 문서를 의미론적으로 읽습니다. 주변 맥락을 사용하여 모호한 문자를 해결할 수 있습니다. 달러 기호와 ".00" 사이의 번진 숫자는 거의 확실히 9이며 8이 아닙니다. VLM은 이 추론을 할 수 있지만, 픽셀 기반 OCR 엔진은 할 수 없습니다.
후처리 검증. 워크플로우에 형식 기대치를 구축하세요. 송장 번호는 패턴을 따르고, 날짜는 달력을 따르며, 합계는 양수입니다. 추출된 데이터가 패턴을 위반하면 검토 플래그를 지정하세요. 도구가 나쁘기 때문이 아니라 특정 문서 유형이 항상 불확실한 결과를 생성하기 때문입니다. "합계는 라인 항목의 합계 ± 0.01과 같아야 함"과 같은 규칙은 모든 필드를 검토하지 않고도 가장 중요한 오류를 포착합니다.
벤더 정확도 주장 읽는 법
모든 OCR 벤더는 수치를 제시합니다. 이를 해석하는 방법은 다음과 같습니다:
어떤 문서 유형을 테스트했는지 물어보세요. 벤더가 명시하지 않았다면, 가장 쉬운 유형을 가정하세요. 어떤 지표를 사용했는지 물어보세요. 문자 단위 정확도(CER)는 가장 관대한 지표입니다. 필드 단위 정확도(추출된 각 데이터 포인트가 완전히 정확한지 여부)는 워크플로우가 작동하는지를 결정합니다. CER 99%인 도구도 같은 문서에서 필드 단위 정확도는 80%일 수 있습니다. 자세한 내용은 OCR 정확도 지표 가이드를 참조하세요. 오류 분포에 대해 물어보세요. 오류가 숫자, 코드, 식별자에 집중되는 경우(OCR 엔진이 가장 유사하게 인식하는 문자들이기 때문에 자주 발생) 동일한 오류율도 치명적일 수 있습니다. 자신의 문서로 테스트하세요. 최악의 문서 3개, 5분 테스트가 게시된 어떤 벤치마크보다 더 많은 정보를 제공합니다.
자주 묻는 질문
필기체에서 OCR 정확도가 왜 이렇게 떨어지나요?
전통적인 OCR은 텍스트를 개별 문자로 분할하여 작동합니다. 필기체는 분할에 필요한 간격을 없앱니다. 글자가 연결되어 엔진이 한 문자의 끝과 다음 문자의 시작을 판단할 수 없습니다. 이는 품질 문제가 아닌 구조적 문제입니다. 필기체의 완벽한 해상도 스캔도 인쇄된 텍스트의 평범한 스캔보다 낮은 정확도를 보입니다.
OCR 스캔에 가장 적합한 해상도는 무엇인가요?
300 DPI가 업계 표준입니다. 200 DPI 미만에서는 문자 가장자리가 신뢰할 수 있는 분할에 너무 거칠어져 정확도가 눈에 띄게 떨어집니다. 600 DPI 이상에서는 파일 크기만 커지고 정확도 향상은 없습니다.
AI 기반 OCR 도구는 전통적인 OCR이 처리할 수 없는 문서 유형을 다룰 수 있나요?
비전-언어 모델(VLM) 도구는 픽셀 단위가 아닌 의미론적으로 읽기 때문에 더 다양한 문서 유형을 처리합니다. 문맥을 사용하여 모호한 문자를 해결하고 표와 병합된 셀의 구조적 인식을 유지합니다. 그러나 모든 유형에서 동일한 정확도를 달성하는 도구는 없으며, 매우 낮은 품질의 입력은 모든 시스템을 저하시킵니다.
문서 형식(PDF, JPG, PNG)이 OCR 정확도에 영향을 미치나요?
형식보다는 문서 내용이 더 중요합니다. 텍스트가 포함된 디지털 PDF는 OCR이 필요 없습니다. 이미 텍스트가 기계 판독 가능하기 때문입니다. 스캔한 PDF와 동일한 문서의 JPG는 해상도와 압축이 동일할 때 동등한 정확도를 제공합니다.
OCR 도구가 인보이스에서는 잘 작동하는데 배송 명세서에서는 실패하는 이유는 무엇인가요?
이는 구조적 문제입니다. 인보이스는 예측 가능한 키-값 레이아웃을 따릅니다. 반면 배송 명세서는 병합된 셀, 불규칙한 행 높이, 여러 줄 셀이 있는 복잡한 테이블을 자주 사용합니다. 이러한 구조적 패턴은 기존 OCR이 제대로 처리하지 못합니다. 엔진이 바뀐 것이 아니라, 도구가 파싱할 수 없는 구조적 임계점을 문서가 넘어선 것입니다.
전처리를 통해 어려운 문서 유형의 OCR 정확도를 개선할 수 있나요?
기본적인 전처리(기울기 보정, 회색조 변환, 적응형 임계값 처리)는 스캔 문서와 휴대폰 사진에서 정확도를 5-15% 향상시킬 수 있습니다. 하지만 필기나 복잡한 테이블의 격차를 해소하지는 못합니다. 이는 이미지 품질 문제가 아닌 구조적 인식 문제이기 때문입니다.