OCR 정확도 향상 방법:
실제로 효과가 있는 10가지 실용 팁
이 가이드를 마치면 스캔 및 문서 준비 작업 흐름에서 무엇을 변경해야 측정 가능한 수준으로 OCR 결과를 개선할 수 있는지 정확히 알게 됩니다. "더 나은 이미지를 사용하라"는 모호한 조언이 아닌, 구체적이고 실행 가능한 단계와 그 뒤에 숨은 수치를 제시합니다. 각 팁은 세 가지 질문에 답합니다: 왜 중요한가, 무엇을 해야 하는가, 얼마나 많은 정확도를 회복할 수 있는가. 어떤 것은 비용이 전혀 들지 않고(스캐너 설정 변경), 어떤 것은 몇 초의 전처리만 필요합니다. 모두 효과가 있습니다.
핵심 요약
- OCR 정확도의 15~20%는 엔진이 문서를 보기도 전에 사라집니다. 150 DPI 스캔은 e와 c를 구분할 픽셀이 부족하며, 어떤 프리미엄 OCR 도구도 캡처되지 않은 것을 읽을 수 없습니다.
- 문자 정확도 99%는 완벽에 가까워 보이지만 계산해보면 다릅니다. 빽빽한 페이지당 여전히 50개의 잘못된 문자가 있으며, 송장 합계에서 한 자리 숫자만 잘못 읽어도 전체 추출이 무용지물이 됩니다.
- 비용이 전혀 들지 않는 세 가지 변경 사항(300 DPI 스캔, 균일한 조명 아래에서 문서 평평하게 펴기, 기울기 보정 활성화)은 전처리, 새 엔진 또는 추가 비용 없이도 정확도 문제의 80%를 해결합니다.
시작하기 전에
OCR 정확도는 입력 이미지의 품질, OCR 엔진의 처리 방식, 그리고 출력 결과를 어떻게 활용하는지에 따라 결정됩니다. 이 체인에서 어느 하나라도 약하면 최종 결과가 떨어집니다.
다행히도 가장 큰 개선 효과는 스캔 품질과 이미지 전처리 같은 초기 단계에서 얻을 수 있으며, 대부분 사용자가 통제할 수 있습니다. 300 DPI로 조명이 균일하고 명암비가 적절한 문서는 최신 OCR 엔진에서 거의 99%의 정확도를 달성할 수 있습니다. 같은 문서를 150 DPI로 스마트폰으로 찍은 사진으로 처리하면 조명이 나쁠 경우 80%에도 미치지 못하며, 어떤 OCR 소프트웨어를 사용하든 마찬가지입니다.
이 가이드에서는 영향이 큰 순서대로 10가지 기술을 소개합니다. 처음 몇 가지부터 시작하세요. 대부분의 정확도 문제를 해결할 수 있습니다.
OCR 정확도 측정 방식과 업체 주장이 종종 오해를 불러일으키는 이유를 잘 모르신다면, 먼저 OCR 정확도는 실제로 무엇을 의미하나요?를 읽어보세요. 문자 수준 정확도와 필드 수준 정확도의 차이를 설명하여 아래 팁을 더 의미 있게 이해할 수 있습니다.
1. 300 DPI 이상으로 스캔하세요
중요한 이유: 이미지 해상도는 OCR 정확도에서 가장 통제 가능한 요소입니다. OCR 엔진이 문자를 인식할 때, 모양(예: 'e'의 고리, 't'의 가로선, 'M'의 세리프)을 구분할 충분한 픽셀이 필요합니다. 픽셀이 너무 적으면 서로 다른 문자가 뭉개져 구분이 어려워집니다. AI Multiple의 OCR 정확도 벤치마크에 따르면, 150 DPI로 스캔한 문서는 300 DPI로 스캔한 동일 문서보다 정확도가 15–20% 떨어집니다. 150 DPI 이하로 내려가면 정확도가 급격히 하락합니다.
방법: 스캐너를 최소 300 DPI(인치당 도트 수)로 설정하세요. 작은 글꼴(8포인트 미만)이나 조밀한 표가 있는 문서는 400–600 DPI를 사용하세요. 600 DPI를 넘지 마세요. 수익이 감소합니다. 600 DPI는 작은 글꼴에서 300 DPI 대비 약 2–3% 향상되지만, 1,200 DPI는 거의 개선되지 않으면서 파일 크기와 처리 시간을 세 배로 늘립니다.
스마트폰 사진의 경우: 최신 스마트폰은 대부분 300 DPI에 해당하는 이미지를 촬영할 수 있습니다. 문제는 유효 해상도입니다. 너무 멀리서 찍거나 각도가 맞지 않으면 텍스트가 더 적은 픽셀을 차지합니다. 문서가 화면 대부분을 채울 정도로 가까이 찍으세요. 일반적으로 스마트폰 화면에서 모든 텍스트를 편하게 읽을 수 있다면 해상도는 충분합니다.
예상 개선 효과: 저해상도 스캔 대비 15–20% 향상. 스캐너 설정만 조정하면 되므로 비용이 들지 않는 가장 높은 ROI(투자 수익률)의 변경입니다.
2. 조명 조건 제어 (특히 휴대폰 촬영 시)
중요한 이유: 고르지 않은 조명은 문서 전체에 그림자, 밝은 부분, 그라데이션을 만듭니다. OCR 엔진은 텍스트를 읽기 전에 이를 걸러내야 합니다. 송장 날짜에 그림자가 지면 "2024-03-15"가 "2024-03-1S"로 인식될 수 있습니다. "5"가 부분적으로 가려지기 때문입니다. 책상 램프의 눈부심은 전체 열을 지워버릴 수도 있습니다.
방법: 문서를 평평한 표면에 놓고 고르고 부드러운 조명을 확보하세요. 손이나 휴대폰에서 그림자가 생기는 직사광선은 피하십시오. 흐린 날 창문을 통해 들어오는 자연광이 가장 좋은 경우가 많습니다. 정기적으로 문서를 스캔한다면 소형 평판 스캐너나 문서 급지 스캐너를 사용하면 조명 변동 문제를 완전히 없앨 수 있습니다.
대량 캡처 시: 평판 스캐너와 문서 급지기는 일관된 조명을 제공합니다. 문서량이 많다면, 일관된 조명만으로 얻는 정확도 향상이 하드웨어 비용을 충당하는 경우가 많습니다.
예상 개선 효과: 조명이 좋지 않았던 모바일 촬영 문서에서 5~10% 향상. 더 중요한 것은 조명 변화로 인한 예측 불가능한 오류(그럴듯해 보여서 걸러지지 않는 오류)를 제거한다는 점입니다.
3. 이미지 대비 향상
중요한 이유: 낮은 대비(밝은 회색 배경에 진한 회색 텍스트)는 OCR 정확도의 조용한 킬러입니다. 사람이 간신히 읽을 수 있는 문자도 OCR 엔진에는 동일하게 보입니다. 텍스트가 배경에 섞여 버리고, 엔진은 부분적인 형태 정보를 바탕으로 추측합니다.
방법: 텍스트와 배경 간의 대비를 높이세요. 가장 효과적인 방법은 CLAHE(대비 제한 적응형 히스토그램 평활화)로, 균일한 영역의 노이즈를 과도하게 증폭하지 않으면서 국소 대비를 향상시킵니다. 표준 전역 히스토그램 평활화도 작동하지만 노이즈가 많은 배경을 더 악화시킬 수 있습니다.
실제 적용: 많은 OCR 도구(Adobe Acrobat, ABBYY FineReader, Tesseract 포함)에는 대비 향상 기능이 내장되어 있습니다. 직접 이미지를 전처리하는 경우 OpenCV의 createCLAHE 함수를 사용하면 직접 제어할 수 있습니다. 대부분의 문서에서 클립 제한을 2.0~3.0으로, 타일 그리드 크기를 8×8로 설정하세요.
예상 개선 효과: 자연스럽게 대비가 낮은 문서(바랜 영수증, 오래된 복사본, 시간이 지나 바랜 감열지 인쇄물)에서 5~10% 향상.
4. 기울기 보정 (비스듬한 페이지)
중요한 이유: 문서가 아주 약간(5도, 육안으로 거의 구분되지 않는 수준)만 회전되어도 OCR 단어 오류율이 15% 이상 증가할 수 있습니다. OCR 엔진은 수평 텍스트 기준선에 의존하여 줄과 단어를 분할합니다. 기준선이 기울어지면 줄 분할이 실패하여 두 줄의 문자가 합쳐지거나 한 줄이 여러 조각으로 나뉠 수 있습니다. 그 결과 원본과 거의 유사하지 않은 뒤섞인 출력이 생성됩니다.
해결 방법: 기울기 보정(deskew, 왜곡 보정 또는 회전 보정이라고도 함)을 사용하세요. 대부분의 OCR 소프트웨어에는 자동 기울기 보정 기능이 포함되어 있습니다. 이를 활성화하세요. 수동 전처리의 경우, 기울기 각도(일반적으로 허프 변환 또는 가장 큰 텍스트 블록의 경계 상자를 사용하여)를 감지하고 해당 각도의 음수 값만큼 이미지를 회전시킵니다. ScanTailor, unpaper(Linux) 및 Adobe Acrobat의 내장 기울기 보정 도구가 모두 이 작업을 잘 처리합니다.
핵심 임계값: Tesseract OCR은 약 ±2도의 기울기까지는 정확도에 큰 손실 없이 처리할 수 있습니다. 2도를 초과하면 자동 기울기 보정이 필수적입니다. 10도를 초과하면 일부 OCR 엔진은 완전히 실패합니다.
예상 개선 효과: 눈에 띄는 기울기가 있는 페이지에서 단어 오류율이 10~15% 감소합니다. 이는 가장 저렴한 수정 방법 중 하나입니다. 대부분의 스캔 소프트웨어에서 단일 체크박스로 해결됩니다.
5. 올바른 언어 설정
중요한 이유: OCR 엔진은 언어 모델을 사용하여 문자를 식별합니다. 엔진이 영어로 설정되면 특정 문맥에서 "rn"(r 다음 n)이 "m"보다 더 가능성 높은 문자 시퀀스라는 것을 알지만, "an" 다음에 오는 단어가 특정 문자 조합으로 시작할 가능성이 낮다는 것도 알고 있습니다. 문서가 독일어이고 엔진이 영어로 설정된 경우, 일반적인 독일어 문자 조합("ß", "ä", "ö" 등)을 잘못 해석하고 잘못된 언어 모델을 기반으로 부정확한 수정을 강제할 수 있습니다.
해결 방법: OCR 언어를 문서와 일치하도록 설정하세요. 문서에 여러 언어가 포함된 경우(예: 프랑스어 용어가 포함된 영어 송장), 관련 언어를 모두 선택하세요. 대부분의 최신 OCR 엔진은 다중 언어 모드를 지원합니다. 추가 언어를 활성화하는 성능 비용은 무시할 수 있는 반면, 잘못된 언어를 사용할 때의 정확도 비용은 상당합니다.
다중 언어 문서: 국제 송장, EU 세관 양식 또는 이중 언어 계약서와 같은 문서는 종종 여러 언어를 혼합합니다. OCR 엔진에서 관련 언어(예: 영어 + 프랑스어 + 독일어)를 활성화하면 엔진이 프랑스어 단어를 "유효하지 않은" 영어 철자로 간주하여 잘못 읽는 일반적인 오류 모드를 방지할 수 있습니다.
예상 개선 효과: 비원어민 언어 문서에서 3~8% 향상됩니다. 더 중요한 것은 언어별 문자에 대한 치명적인 오류를 줄여준다는 점입니다.
문서 유형에 따라 언어 설정 변경에 대한 반응이 다릅니다. 자세한 분석은 문서 유형별 OCR 정확도 저하 이유를 참조하세요.
6. 그레이스케일 변환 및 적응형 임계값 적용
중요한 이유: 컬러 이미지는 OCR 엔진이 텍스트 인식에 필요한 것보다 훨씬 많은 데이터를 포함하며, 이 추가 데이터에는 노이즈, 압축 아티팩트, 문자 분할을 혼란스럽게 하는 색상 그라데이션이 자주 포함됩니다. 그레이스케일로 변환하면 색상 차원을 제거하면서 휘도 정보는 유지됩니다. 임계값 처리(이진화)는 한 단계 더 나아가 이미지를 순수한 검은색 텍스트와 흰색 배경으로 변환하는데, 이는 대부분의 OCR 엔진이 내부적으로 선호하는 형식입니다.
수행 방법: 먼저 그레이스케일 변환을 적용합니다. 그런 다음 전역 임계값이 아닌 적응형 임계값을 사용하여 이미지를 이진화합니다. 전역 임계값은 전체 이미지에 대해 하나의 임계값을 선택하므로 조명이 고르지 않거나 부분적인 그림자가 있는 문서에서는 제대로 작동하지 않습니다. 적응형 임계값은 각 영역에 대해 로컬 임계값을 계산하여 그라데이션을 자연스럽게 처리합니다.
권장 방법: Otsu 이진화는 깨끗한 문서에 좋은 시작점입니다. 조명이 다양한 문서의 경우 적응형 가우시안 임계값(OpenCV의 adaptiveThreshold와 ADAPTIVE_THRESH_GAUSSIAN_C, 블록 크기 11–15, C 매개변수 2–5)을 사용하세요.
예상 개선 효과: 배경 노이즈나 색상 그라데이션이 있는 문서에서 절대 정확도 5–15% 향상. International Journal of Environmental Sciences에 발표된 연구에 따르면 Otsu 이진화와 가우시안 블러를 적용하면 인쇄 텍스트 OCR 정확도가 65.56%에서 90.35%로 향상되었습니다.
7. 후처리에서 맞춤법 검사 및 사전 검증 사용
중요한 이유: 최고의 OCR 파이프라인도 실수를 합니다. 문자 정확도 99%는 여전히 100자 중 1자가 틀렸다는 뜻이며, 5,000자(약 빽빽한 한 페이지) 문서에서는 50개의 오류가 발생합니다. 이러한 오류 중 상당수는 미묘합니다. "rn"이 "m"으로, "cl"이 "d"로, "0"(숫자 영)이 "O"(문자 오)로 읽히는 경우입니다. 맞춤법 검사기는 추출된 "1O"가 "10"이어야 하는지 알려줄 수 없지만, 후처리 검증 레이어는 이를 의심스러운 것으로 표시하고 도메인별 수정을 적용할 수 있습니다.
수행 방법: OCR 출력을 도메인별 사전이 포함된 맞춤법 검사기에 통과시킵니다. 실용적인 2계층 접근 방식은 다음과 같습니다:
계층 1 — 일반 맞춤법 검사: 출력을 언어 맞춤법 검사기(Hunspell, LanguageTool 또는 워드 프로세서의 내장 검사기)에 통과시킵니다. 도메인 용어가 아닌 명백한 맞춤법 오류를 수정합니다.
계층 2 — 사용자 정의 사전: 공급업체 이름, 제품 코드, 표준 용어, 법적 문구 등 도메인에 특화된 용어 사전을 만듭니다. OCR 출력에 나타나지만 일반 사전이나 사용자 정의 사전에 없는 단어를 플래그 지정합니다. 플래그 지정된 용어는 수동으로 검토합니다.
예상 개선 효과: 단독으로는 1–3% 정확도 향상이지만, 다른 모든 것을 통과하는 오류("1O" vs "10" 문제, "rn"/"m" 혼동, 중요 용어의 맞춤법 오류)를 잡아내는 데 결정적입니다. 생산 워크플로우에서 후처리 검증은 자동 OCR 검증에 관한 발표된 연구에 따르면 잔여 OCR 단어 오류의 약 60%를 잡아냅니다.
8. 중요 필드는 별도로 검증하세요
중요한 이유: 모든 필드가 동일하지는 않습니다. 본문 텍스트의 한 문단에서 글자가 잘못 읽혀도 무해합니다. 독자가 알아낼 수 있기 때문입니다. 하지만 송장 합계, 마감일, 세금 ID에서 숫자 하나가 잘못 읽히면 치명적입니다. 문자 수준 정확도와 필드 수준 정확도의 구분은 OCR 품질에서 가장 중요한 개념입니다. 문자 정확도가 99%여도 5자리 금액 중 한 자리가 잘못 읽혀 송장 합계가 틀릴 수 있습니다.
해야 할 일: 문서에서 중요 필드(금액, 날짜, 송장 번호, 공급업체 등록 ID, 수량)를 식별하고 해당 필드에만 더 엄격한 검증을 적용하세요.
금액 필드: 추출된 값이 예상 형식(숫자, 소수점 포함 여부, 합리적인 범위 내)과 일치하는지 확인하세요. 패턴에서 벗어난 값은 플래그를 지정하세요. 예를 들어, 대부분의 공급업체 송장이 100~5,000달러 사이라면 1,200,000달러의 합계는 잘못 읽혔을 가능성이 높습니다.
날짜 필드: 예상 날짜 형식(YYYY-MM-DD 대 DD/MM/YYYY), 범위(너무 먼 미래나 과거가 아님), 논리적 일관성(마감일이 송장 날짜 이후)을 기준으로 검증하세요.
숫자 식별자: 송장 번호, 구매 주문 번호, 세금 ID는 종종 특정 패턴을 따릅니다. 알려진 형식이 "INV-2026-XXXXX"라면 일치하지 않는 추출 번호는 플래그를 지정하세요.
기대 효과: 이 팁은 전체 정확도를 향상시키지 않습니다. 사용 가능한 정확도를 향상시킵니다. 가장 중요한 필드가 정확하도록 보장하는 동시에 중요하지 않은 텍스트의 사소한 오류는 허용합니다. 비즈니스 워크플로에서 이는 완전한 수동 검토가 필요한 출력과 점검 후 바로 사용할 수 있는 출력의 차이입니다.
비즈니스 문서에 중요한 지표인 필드 수준 정확도에 대한 자세한 내용은 OCR 정확도는 실제로 무엇을 의미하나요?를 참조하세요.
9. 가능하면 OCR 친화적인 폰트를 사용하세요
중요한 이유: 모든 폰트가 OCR 엔진에 동일하게 인식되지는 않습니다. Arial, Helvetica, Courier, Times New Roman(보통 굵기)과 같이 단순하고 균일하며 간격이 적절한 폰트가 가장 높은 인식률을 보입니다. 장식용 폰트, 필기체 폰트, 좁은 폰트, 매우 가는 획의 폰트는 문자 간 차이가 너무 작아 엔진이 안정적으로 구별하지 못해 문제를 일으킵니다.
수행 방법: 직접 문서(송장, 구매 주문서, 계약서)를 작성하는 경우, 10pt 이상의 표준 산세리프 또는 세리프 폰트를 사용하세요. 다음은 피해야 할 폰트입니다:
- 필기체 또는 손글씨 스타일 폰트 (문자 간 경계를 흐릿하게 만듭니다)
- 좁은 폰트 (문자가 너무 가까이 있어 분할이 어렵습니다)
- 매우 가볍거나 가는 폰트 (획 두께가 OCR 엔진이 해결할 수 있는 임계값 아래로 떨어집니다)
- 이미 작은 폰트의 이탤릭체 변형 (기울기가 효과적인 문자 분리를 줄입니다)
문서를 받는 입장이라면: 이 팁은 주로 예방적입니다. 공급업체가 인식하기 어려운 폰트로 문서를 보낸다면, 전처리(특히 대비 향상 및 적응형 임계값 처리)로 부분적으로 보완할 수 있지만, 인식률은 여전히 표준 폰트보다 낮습니다. 이를 알면 현실적인 기대치를 설정하는 데 도움이 됩니다. 문서 작성자의 잘못된 폰트 선택은 전처리 품질과 관계없이 정확도를 제한할 수 있습니다.
예상 개선 효과: 인식이 어려운 폰트(필기체, 장식용, 매우 가는 폰트)에서 표준 폰트로 전환할 때 2~5% 향상됩니다. 더 중요한 것은, 특정 폰트의 일부 문자가 일관되게 오인식되고 다른 문자는 정상인 '무작위 오류' 패턴을 제거한다는 점입니다.
10. 깨끗한 원본 소스로 시작하세요
중요한 이유: 근본적으로 손상된 소스의 텍스트는 아무리 전처리를 해도 완전히 복구할 수 없습니다. 지갑에 6개월 동안 있던 구겨진 영수증, 팩스로 보낸 후 다시 스캔한 계약서, 시간이 지나 검게 변한 감열지 출력물 등 이러한 문서는 정보가 영구적으로 손실되었습니다. 전처리는 노이즈를 제거하고 기울기를 교정하며 대비를 향상시킬 수 있지만, 더 이상 존재하지 않는 픽셀을 복원할 수는 없습니다.
수행 방법: 문서가 스캐너에 도달하기 전에 품질을 고려하세요.
- 원본을 평평하고 건조하게 보관하세요. 구겨진 종이는 접힌 자국 그림자와 영구적인 왜곡을 만듭니다.
- 중요한 문서의 경우, 물리적 사본을 스캔하는 대신 발신자에게 깨끗한 사본이나 디지털 원본(PDF)을 요청하세요.
- 팩스 기기를 거친 문서는 스캔하지 마세요. 팩스는 이미지를 과도하게 압축하고 상당한 아날로그 노이즈를 발생시킵니다.
- 손상된 원본을 디지털화해야 한다면 수동 확인을 우선시하세요. 자동화된 프로세스로 완전히 수정할 수 없는 오류가 있을 것입니다.
예상 개선 효과: 현재 소스 문서의 손상 정도에 전적으로 의존하므로 정량화하기 어렵습니다. 하지만 간단한 테스트가 있습니다: 여러분이 문자를 확실히 읽을 수 없다면 OCR 엔진도 마찬가지입니다. 이를 더 깨끗한 소스에 투자할지, 아니면 수동 검토가 필요함을 받아들일지 결정하는 기준으로 사용하세요.
일반적인 OCR 문제 해결
10가지 팁을 모두 적용해도 정확도 문제가 남을 수 있습니다. 가장 흔한 오류 유형과 진단 방법을 소개합니다.
OCR이 "rn"을 "m"으로, 또는 "0"을 "O"로 일관되게 읽는다면, 문제는 거의 항상 해상도나 글꼴 선택에 있습니다. DPI를 400 이상으로 높이고 글꼴이 좁거나 매우 가는지 확인하세요. 사용자 정의 문자 허용 목록(예: 금액 필드의 경우 숫자만)을 안전장치로 사용할 수 있습니다.
이는 문제가 OCR 엔진이 아닌 문서 자체에 있음을 의미합니다. 특이한 글꼴, 인쇄 품질 불량, 낮은 원본 대비, 비표준 레이아웃을 확인하세요. 팁 5(언어 설정)를 다시 살펴보세요. 일부 문서 유형은 잘못된 언어 설정에 더 민감합니다.
기존 OCR은 필체 인식에 근본적으로 취약합니다. 손글씨에 대한 문자 정확도 90%는 여전히 합계 오류를 의미합니다(OCR 필기 정확도: 90% CER이 여전히 잘못된 합계를 의미하는 이유 참조). 손글씨 문서의 경우, 필기 텍스트용 AI 기반 추출 도구를 사용하고 중요 필드는 수동 검증을 계획하세요.
복잡한 표 레이아웃은 레이아웃 인식 처리가 필요합니다. 표준 OCR은 페이지를 단일 텍스트 스트림으로 처리합니다. 표 정렬이 잘못된 경우, 사용 중인 OCR 도구가 레이아웃 분석 또는 표 추출 모드를 지원하는지 확인하세요. 표 테두리를 제거하는 전처리는 역효과를 낼 수 있습니다. 표 구조를 이해하는 OCR 엔진을 사용하세요.
자주 묻는 질문
모든 문서에서 99% OCR 정확도를 달성할 수 있나요?
아닙니다. 대부분의 업체가 인용하는 99%는 표준 글꼴로 인쇄된 깨끗한 단일 언어 문서에 대한 문자 단위 정확도로, 실제 문서 환경과는 거리가 있습니다. 혼합 문서 워크플로우(휴대폰 사진, 스캔 종이, 다양한 레이아웃 및 언어)에서는 94~97%의 필드 단위 정확도가 현실적인 목표입니다. 위의 팁으로 그 격차를 상당 부분 줄일 수 있지만, 일부 문서 유형(필기, 오래된 스캔본, 감열지)은 항상 수동 검토가 필요합니다.
DPI가 높을수록 항상 OCR 정확도가 좋아지나요?
어느 정도까지 그렇습니다. 150 DPI에서 300 DPI로 올리면 정확도가 15~20% 향상됩니다. 300 DPI에서 600 DPI로 올리면 작은 글꼴에서 2~3% 정도 추가됩니다. 600 DPI를 넘어서면 정확도 향상은 미미하지만 파일 크기와 처리 시간이 크게 증가합니다. 대부분의 문서에는 300 DPI, 아주 작은 텍스트(8포인트 미만) 문서에는 400~600 DPI가 적정 수준입니다.
OCR에 JPEG와 TIFF 중 어떤 것이 더 좋나요?
무손실 압축을 사용하는 TIFF(또는 PNG)가 JPEG보다 좋습니다. JPEG는 손실 형식으로, 파일 크기를 줄이기 위해 이미지 데이터를 버리는데, 이 버려진 데이터에는 OCR 엔진이 사용하는 미세한 문자 가장자리 정보가 포함되는 경우가 많습니다. JPEG를 꼭 사용해야 한다면 품질을 최대(95~100%)로 설정하세요. 장기 문서 보관 및 배치 OCR에는 압축되지 않은 TIFF 또는 고품질 PDF가 표준 권장 사항입니다.
OCR에 평판 스캐너만큼 휴대폰 카메라가 효과적인가요?
일관적이지 않습니다. 최신 휴대폰 카메라는 충분한 해상도를 가지고 있지만, 평판 스캐너가 제거하는 변수(가변 조명, 원근 왜곡(문서와 완벽하게 평행하지 않을 때 발생하는 키스톤 효과), 렌즈 왜곡, 모션 블러)가 있습니다. 조심스럽게 찍은 휴대폰 사진은 스캐너에 가까운 OCR 결과를 낼 수 있습니다. 평범한 휴대폰 사진은 눈에 띄게 나쁩니다. 실제 차이는 사진을 얼마나 주의 깊게 찍느냐에 따라 정확도가 5~10% 정도 차이납니다.
전처리 소프트웨어를 사용해야 하나요, 아니면 OCR 엔진이 처리하도록 두어야 하나요?
대부분의 최신 OCR 엔진에는 내장 전처리 기능(자동 기울기 보정, 대비 조정, 이진화)이 포함되어 있습니다. 일관된 출처의 깨끗한 문서의 경우 내장 처리로 충분합니다. 까다로운 문서(오래된 스캔본, 휴대폰 사진, 바랜 감열지 인쇄물)의 경우 전용 도구(ScanTailor, OpenCV 스크립트 또는 Adobe Acrobat과 같은 도구의 전처리 옵션)를 사용한 수동 전처리가 더 나은 제어를 제공합니다. 기본 원칙: 내장 전처리가 문서의 80~90%를 잘 처리하고 나머지 10~20%를 제대로 처리하지 못한다면, 예외적인 문서는 수동으로 전처리하세요.
사용할수록 OCR 정확도가 향상되나요?
전통적인 OCR 엔진은 그렇지 않습니다. 문서를 얼마나 많이 처리하든 엔진은 동일하게 유지됩니다. 비전 언어 모델을 사용하는 AI 기반 추출 도구의 경우 답이 더 복잡합니다. 기본 모델이 주기적으로 업데이트되므로 시간이 지남에 따라 정확도가 향상될 수 있지만, 전통적인 의미에서 사용자별 학습은 없습니다(모델이 사용자의 수정 사항을 기억하지 않습니다). 실용적인 의미는 정확도 문제를 추적하고 반복되는 오류 패턴을 기반으로 전처리 파이프라인을 조정하는 것이며, 도구가 실수로부터 학습하기를 기다리지 않는 것입니다.
위의 10가지 팁은 스캔 버튼을 누르는 순간부터 최종 출력을 검토하는 순간까지 완벽한 정확도 파이프라인을 구성합니다. 순서대로 진행하세요. 해상도와 조명부터 시작하고(ROI가 가장 높은 변경), 필요한 문서에 전처리를 추가한 후, 사후 처리 검증을 통해 누락된 오류를 잡아내세요. 대부분의 사용자는 팁 1~4가 정확도 문제의 80%를 해결한다는 것을 알게 됩니다. 팁 5~10이 나머지 격차를 메웁니다.
열 가지를 모두 적용한 후에도 여전히 정확도 문제가 발생한다면, 한계는 OCR 엔진 자체에 있을 가능성이 높습니다. 모든 엔진이 까다로운 문서를 동등하게 처리하지는 않습니다. 다음 단계는 실제 변동성을 처리하도록 설계된 도구에서 문서를 테스트하는 것입니다. 샘플을 실행하여 위의 팁이 얼마나 격차를 줄였는지 확인하세요.