OCR 정확도 주장 읽는 법
구매 전 확인할 5가지 질문
매주 누군가는 문서 추출 도구를 평가하며 공급업체의 "99% 정확도" 주장을 읽고 가입한 후, 첫 번째 실제 문서 배치를 업로드하고 실제 정확도가 85%에 가깝다는 사실을 발견합니다. 그들은 거짓말에 속은 것이 아닙니다. 그들이 실제로 묻고 있던 질문, 즉 "이 도구가 내 문서에서 작동할까?"에 답하도록 설계되지 않은 숫자에 속은 것입니다. 공급업체가 보고한 정확도와 실제 성능 간의 차이는 우연이 아닙니다. 이는 정확도 주장이 구성되는 방식의 예측 가능한 결과입니다. 그리고 무엇을 물어야 하는지 알게 되면, 구매 전에 그 차이가 보이게 됩니다.
핵심 요약
- 99% 정확도 주장은 깨끗하고 완벽한 스캔본에서 측정되며 모든 어려운 사례가 먼저 제거되기 때문에 실제 처리하는 지저분한 문서는 제외됩니다.
- 문자 수준 정확도는 실제 현장 필드 추출에서 도구가 헤드라인 숫자보다 10~15포인트 낮을 수 있다는 사실을 숨깁니다.
- 오늘 밤 모든 후보 도구에서 직접 문서 20개를 테스트하세요. 결정을 내리는 데 유일하게 의미 있는 정확도 숫자는 직접 측정한 숫자이기 때문입니다.
99%가 생각보다 의미 없는 이유
문서 추출 도구의 일반적인 랜딩 페이지에는 "송장 OCR 정확도 99.9%"라고 쓰여 있습니다. 체크마크 아이콘 옆에 숫자가 표시되어 있습니다. 마치 증거처럼 보이고, 공학적으로 검증된 것처럼 보입니다. 하지만 이 숫자가 알려주지 않는 것은 이것입니다: 그 99.9%가 단일 템플릿의 완벽한 품질 스캔본으로 측정되었는지, 문자 단위인지 필드 단위인지, 그리고 테스트 세트에 실제로 처리하는 문서 유형이 제외되었는지 여부입니다.
AIMultiple의 2026 OCR 벤치마크에 따르면 주요 API 서비스는 깨끗한 인쇄 텍스트에서 99% 이상의 정확도를 보이지만, 필기체의 경우 엔진에 따라 약 70~95%로 떨어집니다. 이는 전체적으로 99%를 주장하는 두 도구가 실제 문서에서는 25% 포인트 차이를 보일 수 있음을 의미합니다. 헤드라인 숫자는 벤더가 어느 쪽에 속하는지 알려주지 않습니다. 원래 그렇게 설계된 숫자가 아니기 때문입니다.
아래 다섯 가지 질문은 모호한 정확도 주장을 구체적인 평가로 바꿔줍니다. 평가 전에 이 질문들을 하면, 어떤 벤더가 실제 테스트를 수행했는지, 그리고 어떤 벤더가 당신이 묻지 않길 바라는지 알 수 있습니다.
Q1: 어떤 문서로 테스트했나요?
정확도는 도구의 속성이 아닙니다. 특정 문서 세트에 대한 도구의 속성입니다. 세트가 바뀌면 숫자도 바뀝니다. 때로는 극적으로 바뀝니다. 균일하고 고해상도이며 단일 언어인 송장으로 테스트하는 벤더는 필기 양식, 바랜 복사본, 휴대폰 카메라 영수증이 혼합된 문서로 테스트하는 벤더보다 더 높은 정확도를 보고합니다. 두 숫자 모두 사실일 수 있습니다. 하지만 오직 하나만이 당신이 경험할 결과를 예측합니다.
테스트 세트의 정확한 구성을 요청하세요: 문서 수, 출처 수, 언어 수, 해상도 범위. 벤더가 이 내역을 제공할 수 없다면, 정확도 수치는 기준이 없는 것입니다. 알 수 없는 데이터 세트에 대한 주장을 알 수 없는 문서에 적용한 것일 뿐입니다. 즉, 유용하지 않습니다.
이 시점에서 도구가 템플릿 매칭이나 영역 기반 OCR에 의존하는지 확인하는 것도 좋습니다. 레이아웃이 다양해지면 이런 방식은 작동하지 않습니다. OCR 정확도의 실제 의미에서 다루듯이, 템플릿 기반 시스템은 훈련된 형식 내에서는 잘 작동하지만 그 외부에서는 완전히 실패할 수 있습니다. 단일 "99%" 숫자로는 절대 알 수 없는 사실입니다.
Q2: 어떤 수준인가요 — 문자, 단어, 필드?
정확도는 세 가지 수준에서 측정할 수 있으며, 공급업체는 일반적으로 가장 높은 수치가 나오는 방식을 보고하는 경향이 있습니다.
문자 수준 정확도(CER)는 엔진이 개별 문자를 얼마나 정확하게 읽는지 측정합니다. 문서에 1,000개의 문자가 있고 990개가 정확하다면 CER은 99%입니다. 인상적으로 들리지만, 실제 업무에서는 가장 덜 유용한 지표입니다. 단 하나의 잘못된 문자로 전체 필드의 가치가 무너질 수 있기 때문입니다. OCR이 $1,429.50의 송장 합계를 $1,429.50으로 읽었다면 8자 중 7자가 정확해 문자 정확도는 87.5%이지만, 필드는 완전히 틀린 것입니다. AP 시스템이 이 금액을 지급한다면, 나머지 문자가 아무리 깨끗해도 오류는 비용을 초래합니다.
필드 수준 정확도(의미 정확도 또는 완전 일치 정확도라고도 함)는 송장 번호, 납기일, 라인 항목 금액 등 각 완전한 데이터 포인트가 완벽하게 추출되었는지 측정합니다. 필드는 정확하거나 그렇지 않을 뿐입니다. 한 자리 숫자만 잘못 읽어도 전체 필드가 실패합니다. 이 지표가 실제 비즈니스 성과와 연결됩니다. LlamaIndex의 OCR 정확도 분석에 따르면 2026년 벤치마크는 완전 자동 처리를 위한 필드 수준 정확도 임계값을 99.9%로 설정합니다. 즉, 필드 1,000개당 오류 1개입니다. 이 이하에서는 수동 검토가 불가피합니다.
문자 수준 정확도와 필드 수준 정확도의 차이는 이론에 그치지 않습니다. 문자 정확도 99%를 보고하는 도구가 동일한 문서에서 필드 정확도는 90% 미만을 제공할 수 있습니다. 문서 유형별 OCR 정확도가 떨어지는 이유에서 살펴보듯이, 복잡한 레이아웃에서는 단일 테이블 경계 해석 오류가 한 행의 모든 필드를 뒤섞어 버리면서 그 격차는 더욱 벌어집니다.
공급업체가 정확도 수치를 제시할 때 가장 먼저 물어봐야 할 질문은 이것입니다: "그것은 문자 수준, 단어 수준, 아니면 필드 수준인가요? 그리고 문서 유형별로 세분화된 필드 수준 결과를 공유해 주실 수 있나요?"
Q3: 테스트 세트에서 제외된 것은 무엇인가요?
벤더가 블로그나 백서에 게시하는 테스트 방법론 문서는 정확도 수치보다 제외 기준에서 더 유용한 정보를 제공하는 경우가 많습니다. 그들이 의도적으로 무엇을 빼먹었을까요?
일반적인 제외 항목으로는 필기체 텍스트, 데이터 필드와 겹치는 도장이나 로고가 있는 문서, 여러 페이지로 된 PDF, 저해상도 휴대폰 사진, 비영어권 언어, 여백에 주석이나 수정 사항이 있는 문서 등이 있습니다. 각 제외 항목은 보고된 정확도의 적용 가능성을 좁힙니다. 필기체를 제외한 99% 수치는 업무에 필기체 배송 메모가 포함되어 있다면 무의미합니다. OCR 필기체 정확도 현실에서 자세히 설명하듯이, 동일 엔진에서 인쇄체와 필기체 정확도 차이는 20%포인트 이상일 수 있습니다. 다국어 문서를 제외한 벤치마크는 이중 언어 인보이스를 처리할 때 도구가 어떻게 작동할지 전혀 알려주지 않습니다.
특히 중요한 제외 항목은 회전, 기울어짐, 또는 저대비 이미지의 처리입니다. 기존 OCR 엔진은 이러한 입력에 취약합니다. 2026년 OCR 소프트웨어 비교에서 언급했듯이, 일부 도구는 인식 전에 이미지 품질을 정규화하는 전처리 파이프라인을 적용하지만, 그렇지 않은 도구도 많으며 이들의 정확도 주장은 입력이 이미 깨끗하다고 암묵적으로 가정합니다.
직접 물어보세요: "어떤 문서 유형, 품질 수준, 조건을 제외했으며, 제외한 문서 유형에 대한 정확도 결과를 구체적으로 공유해 주실 수 있나요?" 그 대답이 헤드라인 수치보다 더 많은 것을 알려줄 것입니다.
Q4: 어떤 오류 허용 범위가 적용되었나요?
필드 수준에서도 덜 명확한 변수가 있습니다: 값이 '정확'하다고 간주되려면 얼마나 근접해야 할까요? 일부 벤더는 사소한 형식 정규화(구두점 제거, 날짜 형식 표준화, 선행 0 무시) 후 추출된 값이 일치하면 필드를 정확한 것으로 간주합니다. 이는 합리적입니다. 하지만 다른 벤더는 더 나아갑니다: 숫자 필드가 실제 값의 특정 백분율 내에 있으면 정확한 것으로 간주하거나, 하위 문자열이 일치하면 필드를 수락하거나, 철자로 표기된 숫자를 숫자 형태와 동등하게 취급합니다.
이러한 허용 오차가 반드시 잘못된 것은 아닙니다. 일부 애플리케이션은 날짜가 MM/DD/YYYY 형식인지 YYYY-MM-DD 형식인지 실제로 신경 쓰지 않습니다. 문제는 허용 오차가 정확도 수치와 함께 거의 공개되지 않는다는 것입니다. 금액에 5% 변동을 허용하는 98% 필드 수준 정확도는 모든 필드에서 문자별 정확 일치를 요구하는 98% 수치와 완전히 다른 의미입니다.
이는 합계, 수량, 세액과 같은 숫자 필드에서 특히 관련이 있습니다. 정확도가 가장 중요하고 한 자리 숫자만 틀려도 조정 문제가 발생하는 필드입니다. 도구가 인보이스 합계에 대해 99% 필드 정확도를 보고하지만 $1,429.50과 $1,429.00을 차이가 1% 허용 범위 내에 있으므로 일치하는 것으로 간주한다면, 실제 정확 일치 정확도는 광고된 것보다 낮습니다.
물어보세요: "정확한 추출의 기준은 정확히 무엇인가요? 근사 일치도 정확한 것으로 간주되나요? 그 임계값은 무엇인가요?"
Q5: 귀사 문서와 유사한 문서의 정확도는 얼마인가요?
궁극적으로 중요한 유일한 질문이며, 대부분의 구매자가 간과하는 부분입니다. 공급업체의 테스트 세트는 그들이 선택, 관리 및 최적화한 자체 문서로 구성됩니다. 반면 귀사의 문서에는 협력업체, 고객, 서식, 이미지 품질, 필드 유형 등이 포함되며, 이는 전혀 다른 요소입니다.
실용적인 테스트 방법을 제안합니다: 팀이 실제로 접하는 품질과 다양성을 대표하는 20~50개의 문서 샘플을 준비하세요. 동일한 세트를 평가 대상인 모든 공급업체에 보내십시오. 워크플로와 관련 없는 텍스트가 아닌, 실제로 중요한 필드(송장 합계, 구매 주문 번호, 라인 항목 설명)에 대한 필드 수준 정확도를 측정하고 결과를 나란히 비교하세요.
귀사의 문서에 대한 블라인드 평가를 거부하거나 자체 샘플을 사용한 선별된 데모만 제공하는 공급업체는 인상을 주기 위해 설계된 수치를 제시하는 것이지, 귀사의 결과를 예측하기 위해 설계된 수치를 제공하는 것이 아닙니다. 귀사의 테스트 세트를 환영하고 도구의 장점과 한계를 공유하는 공급업체는 진실을 말하고 있는 것입니다.
이 부분에서 기본 추출 패러다임이 중요해집니다. 기존 OCR 도구와 템플릿 기반 시스템은 새로운 형식마다 학습이나 구성이 필요합니다. ImageToTable.ai와 같은 비전-언어 모델 기반 도구는 템플릿이 필요 없고 형식에 독립적입니다: 필드의 페이지 내 위치가 아닌 의미를 이해하여 문서를 읽기 때문에 단일 구성으로 다양한 레이아웃에서 작동합니다. 테스트 샘플에서 측정한 정확도가 프로덕션에서 얻는 정확도이며, 형식별 튜닝이 필요하지 않습니다.
자주 묻는 질문
좋은 OCR 정확도 수치는 얼마인가요?
좋은 수치는 추출 대상과 오류 정의에 따라 다릅니다. 깨끗한 인쇄 텍스트의 경우 대부분의 최신 도구로 97% 이상의 필드 수준 정확도를 달성할 수 있습니다. 필기 문서의 경우 최상위 엔진으로 90~95%의 필드 수준 정확도가 현실적입니다. 가장 정직한 답변: 귀사의 문서로 테스트하고 자체 기준을 설정하세요. 보편적인 "좋은" 수치는 없습니다.
공급업체들이 오해의 소지가 있음에도 문자 단위 정확도를 사용하는 이유는 무엇인가요?
가장 높은 수치를 만들 수 있기 때문입니다. 문자 단위 정확도는 평균화의 이점을 누립니다. 8자리 합계에서 한 자리 숫자가 틀리고 4자리 통화 코드에서 한 글자가 틀리면 이 두 필드에서 84%의 문자 정확도가 산출됩니다. 하지만 합계와 통화 코드가 정확해야 한다면 두 필드 모두 100% 틀린 것입니다. 공급업체는 자사 제품이 가장 좋아 보이게 하는 지표를 보고하며, 구매자의 압력이 아직 필드 수준 보고를 표준화하도록 강제하지 않았습니다.
독립적인 OCR 벤치마크를 신뢰할 수 있나요?
예, 단 한 가지 주의사항이 있습니다. 벤치마크가 귀하의 문서와 유사한 유형의 문서로 테스트되었는지 확인하십시오. AIMultiple의 DeltOCR Bench나 오픈소스 OCRBench와 같은 독립적인 벤치마크는 중립적인 비교를 제공하지만, 문서 구성이 귀하의 워크플로와 일치하지 않을 수 있습니다. 벤치마크를 후보 선별 필터로 사용한 후, 최종 후보를 귀하의 문서로 테스트하십시오.
정확도가 높을수록 항상 더 나은 도구인가요?
아닙니다. 정확도는 하나의 차원일 뿐입니다. 송장에서 99.5%의 필드 정확도를 달성하지만 템플릿당 10개의 학습 샘플이 필요하고, 공급업체가 레이아웃을 변경하면 작동이 중단되며, 통합 엔지니어의 지속적인 유지보수가 필요한 도구는, 설정 없이 모든 형식에서 첫날부터 97%의 정확도를 제공하는 도구보다 실제로는 가치가 낮을 수 있습니다. 설정 노력, 유지보수 비용, 문서 지원 범위가 종종 마지막 2%의 정확도보다 더 중요합니다.
다음 단계
정확도 주장이 쓸모없는 것은 아닙니다. 단지 불완전할 뿐입니다. 다섯 가지 질문에 모두 명확하게 답하고, 문서 유형별 필드 수준 결과를 공유하며, 제외 사항과 허용 오차를 공개하고, 귀하의 문서로 테스트해 볼 것을 권하는 공급업체는 진지하게 고려할 가치가 있습니다. 질문을 회피하거나, 사례 연구로 유도하거나, 선별된 데모만 제공하는 공급업체도 무언가를 말하고 있는 것입니다. 그 말에 귀를 기울이십시오.
지금부터 한 시간 동안 팀이 가장 자주 처리하는 문서 샘플 세트를 모으십시오. 후보 목록에 있는 도구로 실행해 보십시오. 페이지의 모든 문자가 아니라 워크플로에 중요한 필드에서 필드 수준 정확도를 측정하십시오. 얻는 수치는 마케팅 주장보다 낮을 것입니다. 하지만 그것은 귀하의 수치이며, 결정을 내리는 데 유일하게 가치 있는 수치입니다.