AI 필기 인식 vs 전통적 OCR: 대부분의 팀이 예상보다 큰 격차
전통적 OCR은 필기에서 치명적으로 실패합니다 — Tesseract는 필기 양식에서 24% 정확도인 반면 AI 추출은 95%+에 도달합니다. 그 격차가 구조적인 이유입니다.
기존 OCR이 잘하는 것과 한계점
기존 광학 문자 인식(OCR)은 페이지의 픽셀 패턴을 분석하고, 이를 알려진 문자 형태와 대조한 후 텍스트 문자열을 출력하는 방식으로 작동합니다. 300 DPI로 스캔한 깨끗한 기계 인쇄 문서의 경우 95% 이상의 문자 정확도를 보이며 뛰어난 성능을 발휘합니다. 방금 인쇄된 청구서, PDF 양식, 타이핑된 계약서 등이 OCR이 설계된 입력값이며, 여전히 최적의 시나리오로 남아 있습니다.
하지만 문자 정확도와 데이터 정확도는 같지 않습니다. 페이지 어딘가에 "1,234.56"이라는 문자가 있다는 사실만으로는 그것이 청구서 합계인지, 수량인지, 참조 번호인지 알 수 없습니다. 그 해석에는 여전히 사람이 필요하거나, OCR 출력 위에 구축하고 유지 관리해야 하는 규칙 계층이 필요합니다. 기계 인쇄 텍스트의 경우 이 격차는 후처리 스크립트와 필드 위치 템플릿으로 관리할 수 있습니다. 하지만 필기체의 경우 그 격차는 심연으로 벌어집니다.
근본적인 문제는 구조적입니다. 기존 OCR은 상향식(bottom-up)으로 작동합니다. 먼저 개별 문자를 읽은 다음, 이를 단어로, 다시 줄로 조합하려고 시도합니다. 문서가 무엇에 관한 것인지에 대한 개념이 전혀 없습니다. 모든 문자가 선명하고 예측 가능할 때는 이 방식이 잘 작동합니다. 하지만 필기체처럼 문자가 연결되고, 크기가 다양하며, 예측 불가능하게 기울어지거나 서로 번질 때, 상향식 접근 방식은 단어 수준에 도달하기도 전에 붕괴됩니다.
기존 OCR이 필기체에서 무너지는 세 가지 지점
모든 사람의 필체는 고유한 데이터셋입니다. 획 굵기, 기울기 각도, 글자 연결, 기준선 흔들림 등은 사람마다 다를 뿐만 아니라, 같은 사람이라도 날짜, 펜, 종이 표면에 따라 달라집니다. 기존 OCR은 서로 악화되는 세 가지 특정 실패 모드에 직면합니다.
문자 인식 시작 전에 문자 분할이 먼저 이루어집니다
OCR은 각 문자가 분리 가능한 경계 상자(bounding box)를 차지한다고 가정합니다. 필기체는 이 가정을 완전히 무너뜨립니다. 문자들이 명확한 경계 없이 서로 이어져 흐릅니다. 엔진은 여러 글자를 하나의 덩어리로 합쳐버리거나("clear"를 "dear"로 읽음), 하나의 글자를 두 개의 상자로 나누어 버립니다("m"을 "rn"으로 읽음). 실제 운영 환경의 독립적인 벤치마크에 따르면, 가장 널리 사용되는 오픈소스 OCR 엔진인 Tesseract는 일반 필기체에 대해 45~50%의 단어 정확도를 보입니다. 즉, 필기체로 작성된 두 단어 중 하나는 잘못 읽힌다는 뜻입니다. 인쇄체와 필기체가 섞인 50개 필드 양식의 경우, 사람의 검토가 시작되기 전에 약 25개 필드에 오류가 포함됩니다.
문맥 이해가 없으면 오류 복구가 전혀 불가능합니다
사람이 배송 양식의 번진 단어를 읽을 때, 주변 필드(날짜, 주소, 품목 목록)는 그 번짐이 합리적으로 무엇일 수 있는지 제약 조건을 제공합니다. "총액" 필드의 숫자는 이름이 될 수 없습니다. "생년월일" 필드의 날짜는 내년이 될 수 없습니다. 기존 OCR에는 이러한 추론 능력이 전혀 없습니다. 페이지의 모든 위치에 무엇이 있어야 하는지와 관계없이 동일한 문자 매칭 알고리즘을 적용합니다. 가격 열에 있는 번진 "5"는 픽셀 패턴이 모호하기 때문에 "S"로 분류됩니다. 그리고 엔진은 통화 필드에서 "S"가 말이 안 된다는 것을 알릴 방법이 없습니다.
레이아웃 변동성은 템플릿 기반 파이프라인을 무너뜨립니다
많은 실제 OCR 설정은 템플릿에 의존합니다. 각 필드에 대한 고정 좌표를 정의하고, 엔진은 해당 상자 안에 나타나는 문자를 읽습니다. 이는 단일 출처의 표준화된 양식에는 효과적입니다. 그러나 공급업체가 양식 레이아웃을 변경하거나, 필드가 1.27cm(0.5인치)라도 이동하거나, 누군가 지정된 상자 대신 여백에 메모를 작성하는 순간 실패합니다. 손으로 작성된 문서는 이 문제를 더욱 악화시킵니다. 작성자는 상자를 넘어 쓰거나, 여백에 주석을 추가하거나, 화살표를 사용하여 정보의 위치를 변경하는 경우가 빈번하기 때문입니다. "이름: [____________]"를 위해 만들어진 템플릿은 "이름: [김철수—— 첨부 신분증 참조]"를 처리할 수 없습니다. 해당 필드의 OCR 출력은 잘리거나, 깨지거나, 비어 있을 것이며, 이후 워크플로우는 그 사실을 알 방법이 없습니다.
AI 필기 인식이 생각하는 방식의 차이
비전 언어 모델(VLM) — GPT-4o, Claude, Gemini 등이 포함되는 AI 범주 — 은 문서를 하향식으로 처리하며, 상향식으로 처리하지 않습니다. 개별 글자 모양을 찾는 것부터 시작하지 않습니다. 전체 페이지 이미지를 보고 구조와 목적을 이해한 후, 그 맥락 안에서 텍스트를 해독합니다. 이는 사람이 읽는 방식에 더 가깝습니다. 각 펜 획을 따로 분석하지 않고, 인보이스 하단에 총계가 있을 것이라 예상하기 때문에 "합계"라는 단어를 인식하고, 맥락상 통화 금액이어야 하므로 옆의 숫자를 통화로 해석하는 것입니다.
실질적인 결과는 VLM 기반 추출이 사람처럼 모호함을 처리한다는 점입니다. 즉, 페이지에 있는 내용과 페이지에 있어야 할 내용을 상호 참조하는 방식입니다. "5" 또는 "S"처럼 보이는 문자가 숫자 필드에 나타나면 "5"로 결정됩니다. "Jan 5 25"로 작성된 날짜는 모델이 날짜 형식을 이해하기 때문에 "2025-01-05"로 정규화됩니다. 이러한 맥락적 모호성 해소는 문자 수준 OCR에 비해 사소한 개선이 아닙니다. 바로 사용 가능한 출력과 사람의 추가 검토가 필요한 출력의 차이입니다.
실제로 이 접근 방식에 기반한 도구를 사용하면 사용자 정의 열 추출을 정의할 수 있습니다. 원하는 필드 이름("송장 번호", "마감일", "총 금액")을 입력하면 AI가 필드 레이블의 의미를 이해하여 페이지 어디에서든 각 값을 찾습니다. 템플릿 좌표, 공급업체별 설정, 양식 레이아웃 변경 시 재구성이 필요 없습니다. AI가 위치가 아닌 의미를 찾기 때문에 동일한 정의가 여러 출처의 다른 문서에서도 작동합니다.
파일은 안전하게 처리되며 저장되지 않습니다.
정확도 격차: 숫자로 보는 차이
숫자는 차이를 구체적으로 보여줍니다. 2025~2026년에 발표된 여러 독립 벤치마크는 일관된 패턴을 보여줍니다. 인쇄 텍스트의 경우 기존 OCR과 VLM 기반 추출 간의 격차는 좁습니다(3~7% 포인트). 필기체의 경우 그 격차는 폭발적으로 커집니다.
| 문서 유형 | 기존 OCR 정확도 | VLM 기반 추출 정확도 | 격차 |
|---|---|---|---|
| 깨끗한 인쇄 텍스트 (300 DPI) | 92–98% | 95–99% | 3–7%p |
| 인쇄체 필기 (제한된 박스) | 70–85% | 85–93% | 8–15%p |
| 혼합체 (필기체 + 인쇄체) | 45–60% | 80–90% | 25–35%p |
| 완전 필기체 / 지저분한 필기 | 15–30% | 75–88% | 50–65%p |
| 저품질 현장 사진 (휴대폰, 고르지 못한 조명) | <20% | 65–80% | 45–65%p |
패턴은 명확합니다. 가장 깨끗한 필기(제한된 박스 안의 대문자 인쇄체)의 경우 격차는 감당할 만한 수준입니다. 기존 OCR도 약간의 후처리로 '충분히 괜찮을' 수 있습니다. 하지만 필기의 품질이 떨어질수록(인쇄체에서 혼합체로, 제한된 박스에서 자유 형식 필드로, 스캔 페이지에서 휴대폰 사진으로) 기존 OCR 정확도는 급락하는 반면, VLM 기반 추출은 점진적으로 저하됩니다. 2026년 동일 벤치마크에서 Google Document AI의 필기체 전용 엔진을 테스트한 결과, 필기체 단어 정확도는 약 63%였습니다. Amazon Textract는 동일 입력에서 약 89.5%로 더 나은 성과를 보였지만, 두 시스템 모두 기울기 보정, 대비 향상, 노이즈 제거를 위한 별도의 전처리 파이프라인이 필요했습니다. VLM 기반 시스템은 추가 설정 없이 추론 시점에 이러한 작업을 처리합니다 (Suparse, 2026).
주당 100개의 혼합 문서(절반은 인쇄, 절반은 필기)를 처리하는 실제 워크플로우에서 누적 차이는 기존 OCR 기준 주당 약 4~6시간의 수동 수정이 필요한 반면, VLM 기반 추출 기준으로는 30~45분에 불과합니다. 이 격차는 단순한 편의성의 문제가 아닙니다. 필기가 포함된 자동화가 전담 검수 단계 없이 실행될 수 있는지를 결정합니다.
비교가 복잡해지는 지점: 속도, 비용, 환각 현상
정확도 비교만으로 판단한다면 결정은 간단할 것입니다. 하지만 VLM 기반 추출에는 세 가지 트레이드오프가 있어, 무조건적인 추천은 부정직한 결과를 낳습니다.
속도
기존 OCR은 빠릅니다. 일반 하드웨어에서 한 페이지를 2초 이내에 처리합니다. VLM은 더 풍부한 추론을 수행하기 때문에 더 느립니다. 일반적인 페이지 수준 추출을 위한 VLM 호출은 문서 복잡성과 모델 크기에 따라 5~12초가 소요됩니다. 500페이지 분량의 배치라면, 15분과 1시간 이상의 차이가 납니다. 워크플로우가 볼륨에 민감하고 문서가 일관되게 깨끗한 인쇄 텍스트라면, 기존 OCR이 여전히 더 빠른 옵션이며, 그것만으로 충분할 수 있습니다.
비용
기존 OCR은 저렴합니다. Tesseract는 무료 오픈소스입니다. 클라우드 OCR API는 페이지당 약 $0.001~0.005를 청구합니다. VLM 기반 추출은 계산량이 더 많기 때문에 페이지당 비용이 더 비쌉니다. 하지만 페이지당 API 가격만으로 비교하는 것은 오해의 소지가 있습니다. 150,000페이지 이상을 프로덕션에서 처리한 Reddit 사용자는 수동 교정 비용을 고려하면 기존 OCR의 페이지당 비용 이점이 사라진다고 지적했습니다: "기존 OCR 플랫폼은 비용 효율적으로 보이지만(~$0.001-0.005/페이지), 필기체 정확도가 낮아(~45-50%) 필기 콘텐츠가 많은 비즈니스 워크플로우에는 사용할 수 없습니다. 오류를 수동으로 수정하는 시간 때문에 실제 비용은 전문 솔루션보다 훨씬 높아집니다" (r/computervision, 2025). 실제 비용 방정식은 페이지당 추출 비용 + 오류당 수정 비용 × 오류율입니다. 인쇄 문서의 경우 페이지당 비용이 지배적입니다. 필기 문서의 경우 수정 비용이 지배적이며, 여기서 VLM의 높은 정확도가 계산을 바꿉니다.
환각 현상
대부분의 비교 글에서 생략하는 내용이 있습니다: VLM은 환각 현상을 일으킬 수 있다는 점입니다. VLM은 페이지에 있어야 할 내용을 추론하기 때문에, 실제로는 없는 정보를 삽입하는 경우가 있습니다. 예를 들어, 빈 필드에 그럴듯한 날짜를 넣거나, 판독이 불가능한 필체의 금액을 추측해서 입력하는 식입니다. 전통적인 OCR은 반대 방식으로 실패합니다(아무것도 반환하지 않거나 쓰레기 값을 반환), 따라서 오류를 더 쉽게 감지할 수 있습니다. VLM의 환각 현상은 결과가 정확해 보이기 때문에 더 위험합니다. 자신 있게 틀린 Tesseract 출력("OOO OOO")과 자신 있게 틀린 VLM 출력의 차이는, VLM 버전이 실제 데이터처럼 읽히고 자동 검증을 통과할 수 있다는 점입니다. 오류 비용이 큰 필드(지불 금액, 계약 날짜, 규정 준수 데이터)의 경우, 어떤 기술을 선택하든 신뢰도 점수와 사람의 검토 과정이 여전히 필요합니다 (F22 Labs, 2026).
핵심 인사이트: 전통적인 OCR은 잘못된 문자를 반환하며 실패합니다. VLM 기반 추출은 그럴듯한 허위 정보를 반환하며 실패할 수 있습니다. 전자의 실패 방식은 노이즈가 있지만 감지 가능합니다. 후자는 조용하고 위험합니다. 어느 기술도 중요 필드에 대한 검증의 필요성을 없애지 못합니다. 단지 다른 검증 전략이 필요할 뿐입니다.
하이브리드 접근법: 상황별 사용 전략
대부분의 팀에게 실용적인 답은 "모든 것을 AI로 전환"하거나 "OCR에만 의존"하는 것이 아닙니다. 각 문서의 특성에 따라 적절한 엔진으로 라우팅하는 하이브리드 파이프라인입니다.
100% 인쇄체이고, 형식이 일관되며, 300 DPI 이상으로 스캔된 문서의 경우, 전통적인 OCR이 더 빠르고 저렴하며 충분합니다. 출력에 필드 위치 후처리가 필요할 수 있지만, 문자 수준의 정확도가 충분히 높아 후처리 규칙이 안정적입니다.
필기체가 하나라도 포함된 문서(단일 필드라도)의 경우, 하이브리드 전략으로 전환합니다. 인쇄된 부분에는 전통적인 OCR을 사용하고, 필기체 필드는 VLM으로 라우팅합니다. 이는 페이지의 대부분에서 OCR의 속도 이점을 활용하면서, OCR이 처리할 수 없는 부분에는 상황 인식 AI를 사용하는 방식입니다. 라우팅 로직은 간단합니다: 특정 필드의 OCR 신뢰도가 임계값(일반적으로 70-75%) 아래로 떨어지면, 해당 필드는 VLM 경로를 통해 재처리됩니다. 문자 수 하한선(페이지당 최소 40자)은 OCR이 4개의 올바르게 읽은 문자에 대해 높은 신뢰도를 보이지만 나머지 페이지를 완전히 놓친 경우를 잡아내는 두 번째 게이트 역할을 합니다.
임계값 접근법은 비용도 통제합니다. 차이가 있는 필드에 대해서만 VLM 처리 비용을 지불하면 됩니다. 문서의 30%에 필기체가 포함되어 있고 각 문서에 평균 15개의 필드가 있는 워크플로우의 경우, 페이지 전체가 아닌 문서당 약 5개의 필드만 VLM 경로를 통과합니다. 규모가 커지면 이 차이는 중요해집니다.
문서 워크플로우에 미치는 영향
기존 OCR과 AI 필기 인식 중 선택은 기술의 문제가 아니라 워크플로우 설계의 문제입니다. 문서 수집이 100% 인쇄 및 템플릿화되어 있다면 기존 OCR이 작동하며 계속 작동할 것입니다. 문서 중 상당 부분에 필기가 포함되어 있다면(운전자 메모가 포함된 배송 확인서, 현장 관찰 기록이 포함된 검사 보고서, 환자 서명이 포함된 의료 접수 양식, 필기 진술이 포함된 금융 신청서) 기존 OCR만 사용하는 파이프라인은 모든 배치에서 데이터를 조용히 잃게 됩니다.
가장 흔한 오산은 도구의 마케팅 페이지에 필기 지원이 나열되어 있다고 해서 "OCR이 처리한다"고 가정하는 것입니다. 나열된 기능과 실제 문서(공급업체의 깔끔한 데모 샘플이 아닌)에서의 실제 성능 간의 차이가 자동화가 효과가 있는지, 아니면 절약하는 것보다 더 많은 작업을 만드는지를 결정합니다. 자신의 문서, 특히 가장 지저분한 10%의 문서로 테스트하는 것이 순수 OCR, 순수 VLM 또는 하이브리드 중 어떤 접근 방식이 실제 운영 부하에서 견딜 수 있는지 아는 유일한 방법입니다.
자주 묻는 질문
기존 OCR이 필기체를 전혀 읽을 수 있나요?
네, 하지만 신뢰할 수 없습니다. Tesseract 4.x와 같은 LSTM 기반 엔진에서도 필기체의 단어 수준 정확도는 일반적으로 50% 미만입니다. 연결된 필기체의 문자는 하향식 패턴 매칭에 너무 모호합니다. 기존 OCR은 이러한 입력 클래스를 위해 설계되지 않았으며, 아무리 매개변수를 조정해도 근본적인 아키텍처 한계를 바꿀 수 없습니다.
AI 필기 인식이 수동 데이터 입력을 대체할 만큼 정확한가요?
많은 워크플로우에서 그렇습니다. 단, 몇 가지 주의사항이 있습니다. 제한된 양식 필드의 인쇄체 필기에서 AI 추출은 85~93%의 필드 수준 정확도를 달성하여 수동 입력이 예외가 되도록 합니다. 지저분한 필기체나 저화질 휴대폰 사진에서는 정확도가 65~80%로 떨어집니다. 이는 기존 OCR의 20% 미만에 비해 극적으로 개선된 수치이지만, 중요한 필드에 대한 검토 단계 없이 완전 자동 처리에는 충분히 높지 않습니다. 실용적인 최적점은 신뢰도 기반 라우팅이 있는 추출입니다. 신뢰도가 높은 필드는 자동으로 처리되고, 신뢰도가 낮은 필드는 사람의 검토를 위해 플래그가 지정됩니다. 입력 품질 및 필드 설계에 따라 정확도가 어떻게 달라지는지 자세히 알아보려면 정확도 개선 가이드를 참조하세요.
속도는 어떤가요? AI 추출이 OCR보다 느린가요?
페이지당으로 보면 그렇습니다. VLM 기반 추출은 보통 5~12초가 걸리는 반면, 전통적인 OCR은 2초 미만입니다. 하지만 공정한 비교는 손글씨 필드의 OCR 오류를 수동으로 교정하는 데 드는 시간을 포함해야 합니다. 손글씨가 40% 포함된 100페이지 분량의 배치를 예로 들면, VLM 추출은 처리 시간 약 10분 + 검토 시간 30분이 소요됩니다. 반면 전통적인 OCR은 처리 시간 약 3분 + 오류 수정 시간 3~5시간이 걸립니다. 전체 워크플로우 시간으로 보면 손글씨가 포함된 배치에서는 VLM이 유리합니다.
동일한 파이프라인에서 전통적인 OCR과 AI 추출을 함께 사용할 수 있나요?
네, 가능합니다. 그리고 이것이 실제 운영 환경에서 가장 많이 사용되는 방식입니다. 인쇄된 문서의 경우 신뢰도가 75% 이상이고 최소 문자 수 기준을 충족하면 전통적인 OCR을 사용합니다. 이 기준에 미달하거나 손글씨가 포함된 것으로 플래그가 지정된 문서는 모두 VLM 경로로 라우팅합니다. 이 하이브리드 아키텍처는 OCR이 효과적인 부분에서는 비용과 속도 이점을 살리고, OCR이 처리할 수 없는 손글씨 영역을 보완합니다.
AI 추출 도구가 문서에 없는 데이터를 환각(hallucination)할 수 있나요?
그럴 수 있습니다. VLM 기반 시스템은 실제로는 비어 있거나 판독 불가능한 필드에 대해 그럴듯한 데이터를 생성하는 경우가 있습니다. 이것이 전통적인 OCR의 실패 방식과 가장 중요한 차이점입니다. 전통적인 OCR은 명백히 잘못된 쓰레기 값을 반환하는 반면, VLM의 환각은 정확해 보여 검증 단계를 무사히 통과할 수 있습니다. 지불 금액, 법적 날짜, 환자 식별자 등 오류가 큰 비용을 초래하는 필드의 경우, 어떤 추출 기술을 사용하든 신뢰도 점수와 사람의 검토가 여전히 필요합니다.
유일하게 중요한 벤치마크
벤치마크와 비교표는 평균적인 사실을 알려줍니다. 하지만 여러분의 문서에 해당하는 사실은 알려주지 않습니다. 협력업체 직원의 손글씨, 현장 직원의 약어, 수년 된 스캔 양식이 포함된 바로 그 문서 말입니다. 전통적인 OCR과 AI 손글씨 인식의 격차는 퍼센트 포인트로 측정되지만, 그 차이가 중요한지 여부는 전적으로 워크플로우에서 필드가 잘못 읽혔을 때 어떤 일이 발생하느냐에 달려 있습니다. 잘못 읽힌 송장 합계는 지불 오류로 이어집니다. 잘못 읽힌 검사 결과는 규정 위반입니다. 잘못 읽힌 환자 기록은 안전 문제입니다.
자신의 문서로 테스트하세요. 가장 깨끗한 문서가 아니라, 커피 자국과 여백 메모가 있고 여덟 장이 스테이플러로 함께 찍힌 양식으로 말이죠. 바로 그런 문서들이 여러분의 추출 파이프라인이 실제로 작동하는지, 아니면 누군가 오류를 발견할 때까지 작동하는 것처럼만 보이는지를 결정합니다.