OCR이란? 광학 문자 인식의 실제 작동 원리

OCR(광학 문자 인식)은 타자, 필기, 인쇄된 텍스트 이미지를 기계가 읽을 수 있는 문자로 변환하는 기술입니다. 스캔한 페이지나 사진에서 사람의 눈이 보는 것을 컴퓨터가 편집, 검색, 저장할 수 있는 형태로 바꿉니다. 하지만 대부분의 설명이 생략하는 중요한 차이점이 있습니다. OCR은 문자를 디지털화하지만, 그 문자가 무엇을 의미하는지는 이해하지 못합니다. 이 차이가 검색 가능한 PDF를 얻느냐, 구조화된 스프레드시트를 얻느냐를 결정합니다.

OCR이 실제로 하는 일 — 그리고 한 번도 하지 않은 일

OCR은 한 가지 일만 합니다: 이미지에서 텍스트를 읽어 문자열로 출력합니다. 스캔된 페이지가 들어가면, 대략적인 읽기 순서(왼쪽에서 오른쪽, 위에서 아래)로 정리된 원시 텍스트가 나옵니다. 엔진은 텍스트의 의미, 문서 유형, 중요한 부분과 상용구를 구분하려는 시도를 전혀 하지 않습니다. 모양을 읽고 문자를 생성할 뿐입니다. 이것이 전부입니다.

이것이 왜 중요한지 이해하려면, 표준 인보이스를 OCR에 통과시킬 때 어떤 일이 발생하는지 생각해보십시오. 엔진은 보이는 모든 문자(회사 로고 텍스트, 인보이스 번호, 날짜, 라인 항목 설명, 단가, 합계)를 처리하여 연속적인 텍스트 스트림으로 조합합니다. 출력물에는 페이지에 "$1,234.56"이라는 문자열이 포함되어 있다고 알려주지만, 이것이 인보이스 합계인지, 라인 항목 소계인지, 세금 금액인지, 배송비인지는 알려주지 않습니다. "인보이스 합계"를 범주로 인식하는 개념이 없습니다. "라인 항목"이 무엇을 의미하는지도 모릅니다. 읽기는 하지만 이해하지는 못합니다.

이것이 바로 OCR이 문서 추출이 아니며, OCR이 데이터 입력 자동화가 아닌 이유입니다. OCR은 파이프라인의 첫 번째 계층, 즉 픽셀을 문자로 변환하는 계층입니다. 그 이후의 모든 작업(어떤 문자가 어떤 필드에 속하는지 식별, 형식 검증, 출력을 행과 열로 구조화)은 그 위에 추가적인 지능이 필요합니다.

OCR은 "이 페이지에 어떤 문자가 있습니까?"라는 질문에 답합니다. "이 문서에 어떤 데이터가 포함되어 있습니까?"라는 질문에는 답하지 않습니다. 이 두 질문의 차이는 텍스트 파일과 스프레드시트의 차이와 같습니다.

OCR 작동 방식: 4단계 파이프라인

정확도가 크게 향상되었음에도 불구하고, 핵심 OCR 파이프라인은 수십 년 동안 구조적으로 일관되게 유지되었습니다. 이 네 단계를 이해하면 일부 OCR의 한계가 "더 나은 알고리즘"으로 해결할 수 없는 이유, 즉 아키텍처에 내장되어 있음을 설명해줍니다.

전처리

인식 전에 원본 이미지를 정리합니다. 기울어진 스캔을 바로잡는 데스큐(deskew), 팩스 노이즈 제거, 흑백 이진화, 명암 및 조명 보정이 포함됩니다. 이 단계의 품질이 이후 모든 과정을 좌우합니다. 전처리가 나쁘면 인식도 나쁩니다.

텍스트 검출 (레이아웃 분석)

엔진이 이미지에서 텍스트 영역과 이미지, 로고, 빈 공간, 페이지 장식을 구분합니다. 페이지를 블록, 줄, 개별 문자로 나눕니다. 이 단계에서 읽기 순서가 결정되지만, 문서 구조는 파악하지 못합니다. 페이지 헤더와 표 헤더는 검출 계층에서 동일하게 보입니다.

문자 인식

실제 OCR 단계입니다. 과거에는 템플릿 매칭(각 문자 모양을 알려진 글리프 라이브러리와 비교)으로 수행되었지만, 최신 엔진은 수백만 개의 문자 예제로 학습된 신경망을 사용합니다. 각 문자는 모양으로 분류됩니다. 'O', 숫자 '0', 원 아이콘은 모두 엔진이 구분해야 하는 서로 다른 패턴입니다.

후처리

인식된 문자를 단어로 조합하고 사전 및 언어 모델과 대조합니다. "Recognition"이 "recognition"으로 수정될 수 있습니다. 문맥 기반 규칙으로 모호한 문자를 해결합니다. 예를 들어 주변 문맥을 통해 '1'이 숫자인지 소문자 'l'인지 판단합니다.

핵심은 모든 단계가 상향식(bottom-up)으로 작동한다는 점입니다. 픽셀에서 시작해 문자를 만들고, 단어를 조립하고, 줄로 그룹화합니다. 엔진은 전체 페이지를 의미 있는 문서로 보지 않습니다. 한 번에 작은 영역을 처리하고 읽기 순서대로 결과를 이어 붙입니다. 구멍을 통해 책을 읽는 것과 같습니다. 결국 모든 단어를 재구성할 수는 있지만, 소설을 읽는지, 세금 신고서를 읽는지, 쇼핑 목록을 읽는지 전혀 알 수 없습니다.

OCR 기술의 3세대

OCR은 세 가지 뚜렷한 기술 세대를 거쳐 발전해 왔습니다. 각 세대는 문자 인식 문제에 대한 근본적으로 다른 접근 방식을 나타내며, 각각 다른 한계를 남겼습니다.

1세대 — 패턴 매칭 및 템플릿 OCR (1974~2014). 최초의 상용 OCR 시스템은 템플릿 매칭을 사용했습니다. 캡처된 문자를 스캔하여 저장된 글리프 패턴 라이브러리와 픽셀 단위로 비교하는 방식입니다. 가장 유명한 예는 Tesseract로, 1974년 HP 연구소에서 처음 개발되어 현재 Google이 선도적인 오픈소스 OCR 엔진으로 유지 관리하고 있습니다. 이러한 시스템은 알려진 글꼴의 깨끗한 인쇄 텍스트에서는 좋은 성능(문자 정확도 80~95%)을 보였지만, 특이한 서체, 필기체 또는 노이즈가 있는 스캔에서는 정확도가 급격히 떨어졌습니다(종종 50% 미만). 새로운 글꼴이나 문서 레이아웃이 추가될 때마다 수동 조정이 필요했으며, 어떤 수준에서도 의미 이해가 존재하지 않았습니다.

2세대 — 머신러닝 OCR (2015~2022). 합성곱 신경망(CNN)과 이후 순환 신경망(RNN)의 도입은 문자 인식 정확도를 혁신적으로 변화시켰습니다. 주요 클라우드 제공업체(Google Cloud Vision, Amazon Textract, Azure Document Intelligence)는 고정된 템플릿을 매칭하는 대신 수백만 개의 학습 예제에서 문자 모양을 학습하는 ML 기반 OCR을 배포했습니다. 깨끗한 문서의 문자 정확도는 99% 이상으로 올라갔습니다. 하지만 출력은 여전히 차별화되지 않은 텍스트였습니다. 더 나은 문자 인식이 더 나은 데이터 이해를 만들어내지는 못했습니다. ML 기반 OCR 엔진은 페이지에 있는 모든 글자의 글꼴 두께와 문자 신뢰도 점수를 알려줄 수 있었지만, 숫자 문자열이 송장 번호인지 우편번호인지는 여전히 알려주지 못했습니다.

3세대 — 비전 AI OCR (2023년 이후). 최신 세대는 상향식 파이프라인을 하향식, 전체론적 접근 방식으로 대체합니다. 문자 단위로 처리하는 대신, 비전-언어 모델(VLM)이 전체 페이지를 시각적 이미지로 받아들이고 각 영역, 레이블 및 값이 문맥상 무엇을 의미하는지 추론합니다. 수십억 개의 이미지-텍스트 쌍으로 훈련된 이 모델은 문서 유형을 식별하고, 공간 레이아웃을 분석하며, 시각적 맥락에서 텍스트를 읽고, 위치가 아닌 의미를 기준으로 값을 데이터 필드에 매핑할 수 있습니다. 이것이 ImageToTable.ai와 같은 도구의 기반 기술입니다. 세대 간의 자세한 정확도 비교는 AI OCR과 전통적 OCR 정확도 비교에서 확인하세요.

	1세대: 패턴 매칭	2세대: ML OCR	3세대: 비전 AI
방식	글리프 템플릿 비교	신경망 문자 분류	전체 페이지 시각적 이해
깨끗한 텍스트 정확도	80–95%	99%+	98–99%
다양한 레이아웃 처리	실패 — 레이아웃별 템플릿 필요	제한적 — 문자는 개선, 구조 인식 불가	기본 지원 — 시각적 맥락으로 레이아웃 이해
필기체	50% 미만	50–70%	75–93%
출력	원시 텍스트 문자열	신뢰도 점수 포함 원시 텍스트	구조화된 데이터, 필드 매핑

OCR vs 문서 추출 — 왜 이 차이가 중요한가

이 구분은 문서 처리 업계에서 가장 중요한 개념이며, 대부분의 "OCR이란 무엇인가" 설명이 간과하는 부분입니다.

OCR이 답하는 것: "이 페이지에 어떤 문자가 있나?"
문서 추출이 답하는 것: "이 문서에 어떤 데이터가 포함되어 있나?"

이 차이는 학술적으로 보일 수 있지만, 첫 번째 다중 공급업체 송장 배치를 OCR만으로 처리할 때 그 실체가 드러납니다. 전통적인 OCR 엔진으로 구매 주문서를 실행하면 다음과 같은 결과를 얻습니다:

PURCHASE ORDER PO-2026-0412 DATE 12/04/2026 VENDOR ATLAS FASTENERS QTY 500 DESC M8 HEX BOLT UNIT $0.42 TOTAL $210.00

읽기 순서대로 나열된 텍스트 덩어리입니다. OCR 엔진은 모든 문자를 올바르게 추출했으며, 문자 정확도는 99% 이상일 가능성이 높습니다. 하지만 여전히 각 필드를 강조 표시하고, 스프레드시트에서 올바른 열을 찾아 값을 복사하여 붙여넣어야 합니다. OCR은 문자를 디지털화했지만, 데이터 입력을 수행하지는 않았습니다.

이제 동일한 구매 주문서를 ImageToTable.ai와 같은 AI 문서 추출 도구로 실행해 보세요. 출력은 구조화된 테이블입니다:

PO 번호	날짜	공급업체	수량	설명	단가	합계
PO-2026-0412	2026-04-12	Atlas Fasteners	500	M8 육각 볼트	$0.42	$210.00

차이는 문자 인식 속도가 아니라, 의미 이해의 유무입니다. 추출 엔진은 OCR 엔진과 동일한 픽셀을 읽지만, "PO-2026-0412"가 구매 주문 번호이고, "12/04/2026"이 발행일이며, "$0.42"가 특정 열에 속하는 단가임을 이해합니다. 읽기 단계에서 의미를 할당하며, 이후가 아닙니다.

이것이 중요한 이유는 문서 추출이 OCR 이후의 병목 현상, 즉 대부분의 오류가 실제로 발생하는 수동 복사-붙여넣기 단계를 제거하기 때문입니다. 사람의 데이터 입력은 필드당 일관된 1~4%의 오류율을 보입니다. 대량으로 처리되는 10개 필드 문서의 경우, 1,000개 레코드당 100~400개의 오류로 이어집니다. 그리고 OCR 출력은 차별화되지 않기 때문에, 이러한 오류는 프로그래밍 방식으로 잡기 어렵습니다. 그럴듯해 보이는 잘못된 숫자가 경고를 발생시키지 않고 ERP로 전달됩니다. 추출이 이 문제를 해결하는 방법에 대한 완전한 분석은 AI 문서 추출이 실제로 무엇인지에 대한 가이드를 참조하세요.

OCR이 적합한 경우 (그리고 그렇지 않은 경우)

OCR은 구식 기술이 아닙니다. 특정 문제에 대한 올바른 솔루션입니다. 핵심은 어떤 문제에 적합한지 파악하고, 한계를 솔직하게 인정하는 데 있습니다.

OCR이 적합한 경우:

1. 스캔한 문서를 검색 가능하게 만들어야 할 때 이것이 OCR의 원래 목적이자 가장 자연스러운 사용 사례입니다. 스캔한 PDF를 Ctrl+F로 용어를 찾을 수 있는 검색 가능한 문서로 변환하려면 OCR이 필요합니다. 별도의 추출 계층은 필요 없습니다.

2. 텍스트 아카이브를 디지털화할 때 책, 역사 기록, 타자 친 서신 등 구조화된 데이터 추출보다 보존과 키워드 검색이 목표라면 OCR로 충분합니다.

3. 텍스트 음성 변환 또는 접근성 출력이 필요할 때 시각 장애인을 위한 화면 읽기 프로그램은 OCR을 사용하여 문서 이미지를 읽을 수 있는 텍스트로 변환합니다. 문서 구조보다 정확한 문자 재현이 더 중요합니다.

OCR이 부족한 경우:

1. 스프레드시트에 구조화된 데이터가 필요할 때 최종 목표가 열과 행이 있는 표(예: 한 열에 송장 번호, 다른 열에 날짜, 세 번째 열에 합계)라면 OCR만으로는 생성할 수 없습니다. 읽은 문자에 의미를 부여하는 추출 계층이 필요합니다.

2. 다양한 레이아웃의 여러 출처에서 문서를 처리할 때 각 공급업체나 고객이 다른 형식의 송장을 보내면 기존 OCR 워크플로우에 새로운 구문 분석 문제가 발생합니다. 의미론적 이해 없이는 각 레이아웃 변형에 대해 별도의 템플릿이나 수동 매핑이 필요합니다.

3. 문자 수준이 아닌 필드 수준의 정확성이 중요할 때 99%의 문자 정확도는 20%의 필드 오류율을 가릴 수 있습니다. PO 번호나 세금 ID의 한 자리 숫자 오류가 몇 주 후에야 발견되는 조정 문제를 일으키는 경우, 문자 수준 정확도는 잘못된 지표입니다. 이는 단순한 생산성 문제가 아닙니다. SOX(사베인스-옥슬리법) 및 HIPAA와 같은 규제 체계 하에서 디지털화된 재무 및 의료 기록은 입증 가능한 정확성과 완전성을 유지해야 합니다(스캔 문서 보존 기준에 대해서는 IRS Revenue Procedure 97-22 §3.02 참조).

솔직히 말해, OCR을 찾고 있는 대부분의 기업은 실제로 OCR을 원하는 것이 아닙니다. 그들은 문서에서 데이터를 추출하여 시스템에 입력하는 방법을 원하는 것입니다. OCR은 이러한 문제를 해결하도록 설계된 적이 없습니다. OCR은 페이지를 픽셀로, 픽셀을 문자로 변환합니다. 문서 추출은 문자를 의미로, 의미를 스프레드시트로 변환합니다. 두 기술은 상호 보완적이지만, 근본적으로 다른 작업을 수행합니다.

자주 묻는 질문

OCR이 손글씨도 인식하나요?

기존 OCR 엔진은 손글씨 인식에 어려움을 겪습니다. 인쇄체의 경우 정확도가 50~70%, 필기체는 50% 미만입니다. 그 이유는 OCR이 글자 모양을 기준으로 식별하는 반면, 손글씨는 인쇄체보다 형태 변이가 훨씬 다양하기 때문입니다. 3세대 비전 AI 시스템은 문맥 속에서 단어를 읽기 때문에 훨씬 뛰어난 성능(75~93%)을 보입니다.

인쇄 텍스트에 대한 OCR 정확도는 어느 정도인가요?

300 DPI로 스캔한 깨끗한 타자 문서의 경우, 최신 OCR 엔진은 95~99%의 문자 정확도를 달성합니다. 하지만 품질이 낮은 스캔본, 팩스 문서, 특수 글꼴 또는 대비가 낮은 원본에서는 이 수치가 크게 떨어집니다. 더 중요한 점은 문자 정확도가 필드 정확도와 같지 않다는 것입니다. 문자 정확도가 99%라도, 관심 있는 필드의 15~40%에 오류가 포함될 수 있습니다. 이상적인 벤치마크가 아닌 실제 문서에서 OCR 정확도를 항상 테스트하세요.

OCR로 스캔한 PDF에서 데이터를 추출할 수 있나요?

OCR은 스캔된 PDF의 이미지 콘텐츠를 텍스트로 변환하여 검색 및 선택이 가능하게 만듭니다. 하지만 송장 번호, 날짜, 금액과 같은 특정 데이터 필드를 추출하여 스프레드시트에 배치하려면 추가적인 추출 계층이 필요합니다. OCR은 텍스트를 생성하고, 추출은 이를 체계화합니다. OCR만 적용된 스캔 PDF는 검색 가능한 문서를 제공합니다. 추출이 적용된 스캔 PDF는 행과 열로 구성된 구조화된 데이터를 제공합니다.

OCR과 문서 스캔은 같은 것인가요?

아닙니다. 문서 스캔은 하드웨어 단계로, 종이 페이지를 디지털 이미지(스캔 또는 사진)로 변환합니다. OCR은 그 뒤를 따르는 소프트웨어 단계로, 디지털 이미지를 기계가 읽을 수 있는 텍스트로 변환합니다. OCR 없이 스캔하면 문서의 사진만 생성됩니다. OCR을 적용하여 스캔하면 검색, 편집, 텍스트 복사가 가능한 문서가 생성됩니다. OCR과 추출을 함께 적용하여 스캔하면 분석 가능한 구조화된 데이터가 생성됩니다.

OCR은 어떤 파일 형식을 지원하나요?

OCR 엔진은 JPG, PNG, TIFF, PDF(스캔 및 네이티브) 등 모든 이미지 기반 형식을 허용합니다. 출력 형식에는 일반적으로 일반 텍스트, 검색 가능한 PDF, Microsoft Word 문서가 포함되며, 경우에 따라 CSV 또는 JSON과 같은 구조화된 형식도 포함됩니다. 단, 구조화된 출력을 위해서는 핵심 OCR 엔진 위에 추출 계층이 필요합니다.

OCR이 필요합니까, 아니면 AI 문서 추출이 필요합니까?

목표가 문서를 검색 가능하게 만들거나 편집 가능하게 만드는 것(스캔한 계약서 디지털화, 검색 가능한 PDF 아카이브 생성, 텍스트 음성 변환 활성화)이라면 OCR로 충분합니다. 목표가 수동 입력 없이 구조화된 데이터(송장 번호, 날짜, 라인 항목)를 스프레드시트나 회계 시스템에 가져오는 것이라면 AI 문서 추출이 필요합니다. 결정적인 질문은 이것입니다: 검색 가능한 문서를 원하십니까, 아니면 사용 가능한 데이터를 원하십니까?

OCR은 문서에 디지털 음성을 부여합니다. 다음 단계는 그 음성이 열과 행으로 말하게 하는 것입니다. AI 문서 추출이 문자뿐만 아니라 의미를 읽는 방법 알아보기.