AI가 흐릿한 문서를 읽을 수 있을까?
부분적으로 — 정확도의 기준선은 여기
부분적으로 가능합니다. AI는 중간 정도 품질의 저하된 스캔본 — 약간 흐릿한 사진, 팩스 해상도 문서, 저조도 이미지 등 — 에서도 정확도가 급격히 떨어지지 않고 점진적으로 감소하며 데이터를 추출할 수 있습니다. 대략 150 DPI 이하에 해당하거나 심한 모션 블러로 텍스트 가장자리를 식별할 수 없을 정도로 흐려지면 정확도가 크게 저하됩니다. 핵심 차이는 AI 비전 모델이 문서 맥락을 이해하기 때문에 성능 저하가 완만하다는 점입니다. 반면, 기존 OCR은 급격히 성능이 떨어집니다. 문자 분할 아키텍처가 깨끗한 가장자리를 가정하는데, 가장자리가 흐려지면 대처할 방법이 없기 때문입니다.
핵심 요약
- 저해상도, 모션 블러, 팩스 노이즈 등 모든 유형의 품질 저하에서 AI는 기존 OCR보다 정확도 손실이 2~3배 적으며, 기존 도구가 50% 미만으로 떨어지는 상황에서도 85~95%를 유지합니다.
- AI가 시력이 더 좋은 것이 아닙니다. 마치 흐릿한 영수증을 읽을 때 모든 숫자가 보이지 않아도 총액 위치와 금액 형태를 아는 것처럼, 문서 맥락을 읽는 것입니다.
- 해상도를 100DPI에서 200DPI로 높이는 한 가지 개선만으로도 정확도를 사용 불가능 수준에서 사용 가능 수준으로 끌어올릴 수 있습니다. 가장 큰 제약 요소가 제거되면 복합적인 품질 저하가 해소되기 때문입니다.
AI가 다양한 이미지 손상 유형을 처리하는 능력
모든 이미지 품질 문제가 AI 추출에 동일한 영향을 미치는 것은 아닙니다. 일부 손상 유형은 놀라울 정도로 극복이 가능한 반면, 다른 유형은 자동화가 수동 교정 비용보다 더 많은 시간을 절약해 주는 임계값 아래로 정확도를 떨어뜨립니다. 아래 표는 각 손상 유형을 실제 정확도 영향과 매핑한 것으로, 독립적인 OCR 벤치마크 및 실무자 보고서(Sparkco 2025 벤치마크; OmniDocBench, CVPR 2025)를 기반으로 합니다.
| 손상 유형 | AI 정확도 영향 | 기존 OCR 영향 | 복구 가능? |
|---|---|---|---|
| 중간 저해상도 (150–200 DPI) | 기준 대비 5–10% 하락 | 15–25% 하락 | 예 — AI의 문맥 이해가 보완 |
| 심각한 저해상도 (<150 DPI) | 15–30% 하락 | 40–60% 하락, 종종 사용 불가 | 부분적 — 초해상도 전처리가 도움되나 손실된 세부 정보는 복구 불가 |
| 약간의 모션 블러 (핸드폰 촬영, 미세한 흔들림) | 5–12% 하락 | 20–35% 하락 | 예 — AI는 개별 문자 획이 아닌 단어 형태를 읽음 |
| 심각한 모션 블러 (이동 중 차량, 빠른 패닝) | 25–40% 하락 | 60–80% 하락 | 제한적 — 디블러 AI가 일부 복구 가능, 재촬영이 최선 |
| 낮은 대비 (바랜 잉크, 연한 연필, 누런 종이) | 3–8% 하락 | 10–20% 하락 | 예 — 대비 향상 전처리가 매우 효과적 |
| 팩스 품질 (100–200 DPI + 압축 아티팩트) | 10–20% 하락 | 30–50% 하락 | 부분적 — 팩스 특화 노이즈 제거가 도움되나 일부 데이터는 영구 손실 |
| JPEG 압축 아티팩트 | 5–10% 하락 | 15–25% 하락 | 부분적 — 블로킹 아티팩트는 완화 가능하나 손실된 세부 정보는 복구 불가 |
| 불균일한 조명 / 그림자 | 5–10% 하락 | 15–25% 하락 | 예 — 적응형 이진화가 그림자를 잘 처리 |
두 가지 패턴이 눈에 띕니다. 첫째, AI는 모든 범주에서 기존 OCR보다 2~3배 덜 성능이 저하됩니다 — 이미지 품질이 낮아질수록 문맥 이해 격차는 더 벌어집니다. 기존 OCR은 깨끗한 문자 가장자리에 의존하여 개별 문자를 분할하고 분류하는데, 가장자리가 흐려지면 분할 단계가 실패하고 오류가 연쇄적으로 발생합니다. AI 비전 모델은 전체 단어, 필드 레이블 및 문서 구조를 보기 때문에 "Total"에서 흐릿한 "T"도 이 필드에 무작위 문자열이 아닌 금액이 포함되어야 한다는 것을 모델이 알고 있기 때문에 올바르게 읽힙니다.
둘째, 여러 개의 중간 정도 결함이 단일 심각한 결함보다 더 나쁜 영향을 미칩니다. 낮은 대비(3~8% 하락)에 약간의 기울어짐(2~10% 하락)과 JPEG 아티팩트(5~10% 하락)가 더해진 문서는 단일 요인이 심각하지 않더라도 15~25%의 정확도를 잃을 수 있습니다. 이는 실제 문서에 문제가 하나만 있는 경우가 드물기 때문에 중요합니다 — 팩스로 받은 인보이스는 동시에 저해상도, 노이즈, 압축 아티팩트 문제를 가지고 있습니다. 가장 중요한 전처리 단계는 어떤 손상이 주요 원인인지 식별하고 이를 먼저 해결하는 것입니다.
AI가 저품질 문서에서 잘하는 점
AI가 손상된 문서에서 유리한 점은 더 나은 '시력'이 아니라 더 나은 문맥 이해에 있습니다. 기존 OCR은 문서를 마치 아이가 글자를 하나씩 읽어내듯 처리합니다. 반면 AI는 흐릿한 영수증 사진을 볼 때와 같은 방식으로 읽습니다. 모든 숫자가 선명하게 보이지 않더라도 영수증이 어떻게 생겼는지, 총액이 보통 어디에 있는지, 금액이 어떻게 표시되어야 하는지를 알기 때문입니다.
레이블이 있는 구조화된 양식은 손상된 입력에서 AI가 가장 강력한 성능을 보이는 경우입니다. 문서에 '송장 번호', '날짜', '총 납부액' 같은 필드 레이블이 있으면, 텍스트가 부분적으로 흐릿하더라도 AI는 레이블을 의미적 기준점으로 사용합니다. 해당 영역에서 어떤 종류의 값을 기대해야 하는지 알기 때문입니다. 이것이 사용자 정의 열 추출의 작동 원리입니다. 원하는 열 이름(예: '공급업체', '금액', '구매 주문 번호')을 정의하면 AI는 픽셀 거리를 측정하는 대신 의미를 이해하여 각 값을 찾습니다. '총액'이라는 레이블 옆에 있는 흐릿한 '$1,247.50'은 레이블이 없는 구석에 있는 흐릿한 '$1,247.50'보다 훨씬 더 정확하게 추출됩니다.
중간 정도 저해상도 문서(150–200 DPI)는 AI의 안정적인 성능 범위 내에 있습니다. 이 범위는 적당한 거리에서 찍은 스마트폰 사진이나 '초안' 품질로 스캔한 구형 평판 스캐너에서 일반적입니다. 개별 문자가 부드럽게 보일 수 있지만 단어 형태는 구분 가능합니다. Sparkco 2025 벤치마크에 따르면 AI 기반 OCR 시스템은 200 DPI에서 90% 이상의 문자 정확도를 유지하는 반면, 기존 엔진은 80% 이하로 떨어집니다. 차이는 작은 텍스트에서 가장 두드러집니다. 200 DPI에서 10pt 글꼴은 약 28픽셀 높이로 AI가 해상하기에 충분하지만, 세그먼테이션 기반 OCR에는 한계가 있습니다.
텍스트 내용이 있는 팩스 품질 문서는 예상치 못한 AI 강점, 즉 레이아웃 보존의 이점을 얻습니다. 팩스 압축 알고리즘(MH, MR, MMR)은 미세한 문자 획을 왜곡하지만 텍스트 블록 간의 공간적 관계는 유지합니다. AI는 문자 하나하나가 아닌 문서 구조(헤더, 본문 텍스트, 표)를 이해하여 읽기 때문에, 기존 OCR 엔진이 알아볼 수 없는 문자로 조각낼 팩스 텍스트를 종종 복원할 수 있습니다. 팩스 특화 잡음 제거 전처리(LlamaIndex, 2026)는 AI가 문서를 처리하기 전에 전송 잡음을 제거하여 결과를 더욱 개선합니다.
조명이 어두운 휴대폰 사진도 조명이 균일하고(강한 그림자가 없는 경우) 놀라울 정도로 잘 처리됩니다. 최신 AI 모델은 다양한 실제 이미지로 훈련되어 실내 촬영에서 흔한 잡음 패턴과 색조 변화에 강합니다. 단, 그림자, 특히 문서 위에 휴대폰을 든 손으로 인한 강한 그림자는 인공적인 대비 가장자리를 만들어 레이아웃 감지를 혼란스럽게 합니다. 조명을 확산시키고(창가로 이동, 직접 플래시 사용 금지) 정확도는 깨끗한 스캔 대비 5~8% 이내로 유지됩니다.
AI가 여전히 어려워하는 부분
성공 사례보다 실패 유형을 솔직히 아는 것이 더 중요합니다. 문서를 업로드했는데 쓰레기 결과물이 나오면 도구에 대한 신뢰는 영원히 사라지기 때문입니다.
100 DPI 미만 해상도는 절대적인 한계입니다. 약 100 DPI 미만(너무 멀리서 촬영한 문서, 과도하게 다운샘플링된 PDF, 썸네일 크기 이미지에서 흔함)에서는 개별 문자가 모든 모델이 식별하기엔 픽셀이 너무 적습니다. 100 DPI에서 10pt 문자는 높이가 약 14픽셀에 불과하며, "8"과 "3" 또는 "5"와 "6"을 구분하는 가는 획은 폭이 2~3픽셀입니다. AI 초해상도 기술은 누락된 세부 정보를 보간할 수 있지만, 보간은 정보를 만들어내는 과정입니다. 즉, 누락된 픽셀이 무엇이어야 하는지 추측하며, 그 추측이 때로는 틀립니다. LlamaIndex 저해상도 OCR 가이드에서 지적하듯이: "업스케일링은 원래 캡처되지 않은 세부 정보를 복구할 수 없습니다." 이 해상도 수준에서는 다시 스캔하거나 다시 촬영하는 것이 유일한 신뢰할 수 있는 방법입니다.
심한 모션 블러 — 걷거나 움직이는 차량 안에서 문서를 촬영할 때 발생하는 종류 — 는 가장 치명적인 화질 저하 유형입니다. 모션 블러는 텍스트를 일관된 방향으로 번지게 하여 문자를 연속적인 줄무늬로 합칩니다. 저해상도에서 문자가 축소된 충실도로 형태를 유지하는 것과 달리, 모션 블러는 문자 경계를 완전히 파괴합니다. 독립적인 벤치마크는 일관되게 모션 블러를 가장 치명적인 화질 요소로 지목하며, 중간 정도의 경우에도 정확도가 10~20% 떨어집니다(Sparkco 2025 OCR 벤치마크; LlamaIndex 저해상도 OCR 분석). AI 디블러링 모델은 개선되었지만, 근본적인 정보 이론적 한계에 직면합니다. 여러 문자 위치에 걸쳐 번진 픽셀은 확실하게 원래대로 되돌릴 수 없습니다.
물에 손상되고 물리적으로 훼손된 문서 — 잉크 번짐, 물얼룩, 곰팡이 반점, 변색된 감열지 — 는 복합적인 문제를 제기합니다. 손상이 균일하지 않습니다. 페이지 한쪽 모서리는 완벽하게 읽을 수 있는 반면 다른 쪽은 씻겨 나간 얼룩일 수 있습니다. AI 모델은 이러한 공간적 불일치에 어려움을 겪는데, 레이아웃 이해가 일관된 문서를 기대하기 때문입니다. 2025년 훼손 문서 OCR 연구(IJSAT, 2026)에 따르면 구겨진 문서는 모든 테스트 엔진에서 OCR 정확도를 30~45% 감소시켰고, 젖거나 번진 문서는 25~40% 감소시켰으며, AI 모델이 기존 OCR보다 성능이 뛰어났지만 여전히 프로덕션 기준에는 크게 미치지 못했습니다. 손상된 문서의 아카이브 품질 디지털화에는 사람이 검증하는 전문 도구가 여전히 필요합니다.
접히고, 구겨지고, 찢어진 문서는 문자 모양을 깨는 기하학적 왜곡을 만듭니다. 텍스트 줄을 가로지르는 접힘은 문자가 수직으로 압축되는 눈에 띄는 능선을 만듭니다. AI는 압축된 부분을 다른 문자로 읽거나 완전히 놓칠 수 있습니다. 촬영 전에 문서를 무게로 평평하게 펴면 크게 도움이 되지만, 종이를 영구적으로 변형시킨 깊은 접힘은 여전히 오류를 유발합니다. University of Pittsburgh 도서관 OCR 가이드는 접힌 문서를 그레이스케일이 아닌 RGB 모드로 스캔하여 접힌 그림자와 잉크를 구분하는 데 도움이 되는 미세한 음영 정보를 보존할 것을 권장합니다.
복합 열화 — 문서가 동시에 저해상도, 기울어짐, 노이즈, 조명 불량 상태인 실제 사례 — 는 최고의 전처리 파이프라인조차 무력화시킵니다. 각 향상 단계(기울기 보정, 노이즈 제거, 선명화, 대비 정규화)는 고유한 인공물을 생성하며, 이 인공물들이 누적됩니다. Reddit 사용자가 r/MachineLearning에서 이를 정확히 기록했습니다: Tesseract는 양호한 이미지에서 80~90%, 중간 품질에서 60%, 여러 결함이 동시에 발생한 저품질 이미지에서는 0%의 정확도를 보였습니다. 누적 효과란, 기울기와 노이즈를 그대로 두고 해상도만 100DPI에서 200DPI로 높이는 등 단 하나의 요소만 개선해도 정확도를 '사용 불가'에서 '검토 가능' 수준으로 끌어올릴 수 있다는 뜻입니다. 이는 가장 큰 제약 조건을 제거하기 때문입니다.
불완전한 문서에서 최상의 결과를 얻는 방법
가장 효과가 큰 단일 조치는 입력물이 AI에 도달하기 전에 개선하는 것입니다. 전처리는 중간 정도 열화된 문서에서 손실된 정확도의 10~20%를 복구할 수 있으며, 이는 경계선상의 이미지를 사용 가능한 범위로 밀어 올리기에 충분한 경우가 많습니다.
1. 최소 300 DPI로 스캔 또는 촬영하세요. 이는 모든 OCR 벤치마크와 라이브러리 가이드에서 가장 자주 반복되는 권장사항이며, 그럴 만한 이유가 있습니다. 300 DPI에서 10포인트 글자는 약 42픽셀에 걸쳐 있어 AI가 가는 획을 구분할 수 있는 충분한 해상도를 제공합니다. 일리노이 대학 도서관 OCR 가이드와 피츠버그 대학은 모두 독립적으로 300 DPI를 정확도 향상이 정체되는 임계값으로 제시합니다. 300 DPI 이상은 일반 텍스트에 대해 수확 체감이 있으며, 200 DPI 미만에서는 테스트된 모든 엔진에서 정확도가 눈에 띄게 떨어집니다.
2. 카메라를 문서와 평행하게 유지하세요. 원근 왜곡은 AI가 읽기 전에 이미지의 기울기를 보정하도록 강제하여 오류가 누적되는 전처리 단계를 추가합니다. 5도의 기울기만으로도 정확도가 2~10% 떨어질 수 있습니다. 대부분의 스마트폰 카메라 앱에는 원근을 자동 보정하는 문서 스캔 모드가 있습니다. 이를 사용하세요. 평판 스캐너의 경우 문서 가장자리를 스캐너 베드 눈금자에 맞추세요.
3. 원본에서 대비를 최대화하세요. 흰 종이에 진한 잉크가 이상적입니다. 현장 직원이 양식을 작성하거나 기술자가 검사 노트를 쓰는 등 입력을 통제할 수 있다면 진한 볼펜을 사용하도록 지시하세요. 연한 연필, 유색 종이의 빨간 잉크, 바랜 열전사 영수증 용지는 모두 AI 모델이 의존하는 대비율을 낮춥니다. 스캐너의 밝기 설정 50%는 가는 획을 날리지 않으면서 가장 넓은 동적 범위를 포착합니다.
4. 확산 조명으로 그림자를 제거하세요. 창문을 통해 들어오는 자연광(직사광선이 아닌 간접광)이 가장 균일한 조명을 만듭니다. 인공 조명을 사용하는 경우 문서 양쪽에 45도 각도로 두 개의 광원을 배치하세요. 직접 플래시는 텍스트를 날리는 핫스팟을 만들고, 손으로 폰을 잡으면 페이지 절반에 걸쳐 강한 그림자가 생깁니다. 둘 다 조명 배치에 대해 2초만 생각하면 피할 수 있습니다.
5. 촬영 전에 접힌 문서를 펴세요. 주름과 접힘은 글자 모양을 망가뜨리는 기하학적 왜곡을 만듭니다. 문서가 접힌 경우 촬영 전에 몇 시간 동안 무거운 책 아래에 두세요. 영구적인 주름이 있는 문서의 경우 RGB 모드(회색조나 흑백이 아닌)로 스캔하면 AI가 주름 그림자와 인쇄된 텍스트를 구별하는 데 도움이 되는 미묘한 톤 정보가 보존됩니다.
6. 팩스 문서는 추출 전 노이즈를 제거하세요. 팩스 기기는 압축 알고리즘(MH, MR, MMR)을 사용해 픽셀 패턴을 근사화하여 파일 크기를 줄이는데, 이로 인해 텍스트 주변에 특유의 "블록형" 왜곡이 발생합니다. AI 추출 전에 팩스를 중간값 필터나 적응형 임계값 처리 단계를 거치면 전송 노이즈를 제거하면서도 텍스트 품질을 더 이상 떨어뜨리지 않습니다. 개선 효과는 극적이지 않습니다(일반적으로 5~10% 정확도 향상). 하지만 50페이지 분량의 팩스라면 수동으로 수정해야 할 오류가 20~30개 줄어드는 셈입니다.
AI가 불완전한 품질을 처리하는 실제 문서 사례
통제된 벤치마크 정확도와 실제 성능 간의 차이는 저품질 문서에서 가장 큽니다. 따라서 벤치마크 수치를 인용하는 것보다 실제 사용 사례를 살펴보는 것이 훨씬 중요합니다.
트럭 운전실에서 촬영된 현장 배송 확인서. 물류 기사가 다음 정류장으로 이동하기 전에 대시보드 위의 서명된 배송 확인서를 찍습니다. 사진에는 진동하는 엔진으로 인한 모션 블러, 운전실 돔 조명으로 인한 고르지 않은 조명, 약간의 기울어짐이 있습니다. 이는 현실적인 최악의 입력이며, AI는 예상보다 잘 처리합니다. 양식의 구조적 특성(배송 번호, 수령인 이름, 날짜, 서명란)은 의미적 기준점을 제공합니다. 사용자 정의 열 추출을 통해 AI는 인쇄된 필드(배송 번호 및 날짜)를 거의 일반적인 정확도로 추출하는데, 이는 일반적으로 일관된 위치에 명확한 형식으로 있기 때문입니다. 수기로 작성된 수령인 이름과 서명은 더 어렵습니다. AI는 이를 정확한 전사보다는 존재 여부 표시기로 포착합니다. 실용적인 워크플로: AI가 구조화된 필드를 자동으로 추출하게 하고, 수기 부분을 점검합니다.
2020년 이전 공급업체의 팩스 송장. 건설, 제조, 도매 업계의 많은 업체, 특히 디지털화되지 않은 소규모 공급업체는 여전히 팩스로 송장을 보냅니다. 팩스 송장은 저해상도(100~200 DPI), 압축 아티팩트, 그리고 때로는 전송 회선 노이즈가 결합되어 있습니다. Sparkco 2025 벤치마크에 기록된 테스트에서 AI 기반 OCR로 처리된 팩스 문서는 인쇄된 텍스트에서 약 85~90%의 필드 수준 정확도를 달성했습니다(기존 OCR의 60~70%와 비교). 나머지 오류는 작은 글꼴의 라인 항목과 희미한 인쇄물에 집중됩니다. 매주 수십 장의 팩스 송장을 처리하는 미지급금 팀의 경우, AI 추출은 전체 재입력 대신 오류 수정으로 수동 입력을 줄여 불완전한 출력에서도 3~5배의 시간을 절약합니다.
1990년대의 누렇게 변한 아카이브 문서. 로펌, 보험사, 정부 기관은 수십 년간의 종이 아카이브를 유지합니다. 디지털화를 위해 스캔할 때 원본 종이는 누렇게 변하고 잉크는 바랬으며, 스테이플 구멍과 여백 메모가 노이즈를 추가합니다. AI는 황변을 잘 처리합니다. 전처리 중 대비 정규화는 사람의 눈에는 거의 보이지 않는 텍스트를 복구할 수 있습니다. 실제 과제는 바랜 잉크입니다. 원본이 도트 매트릭스 인쇄물이나 연한 카본 카피인 문서의 경우 어떤 도구로도 안정적으로 복구할 수 있을 만큼의 대비가 충분하지 않습니다. 이러한 경우 AI는 추출 가능한 것을 추출하고 신뢰도가 낮은 필드는 사람이 검토하도록 표시합니다. 이는 모든 필드를 수동으로 검토하는 것보다 훨씬 효율적인 분류 워크플로입니다.
레스토랑 조명에서 찍은 스마트폰 영수증 사진. 업무 회식 자리에서 프리랜서가 따뜻하고 어두운 레스토랑 조명 아래서 영수증 사진을 찍습니다. 스마트폰 카메라는 높은 ISO로 보정하여 노이즈가 발생하고, 종이는 광택이 있어 총액 일부에 눈부심이 생깁니다. 영수증은 지갑에 들어 있었기 때문에 약간 구부러져 있습니다. 세 가지 문제에도 불구하고 AI는 영수증이 강력하게 예측 가능한 구조를 가지고 있기 때문에 대부분의 경우 날짜, 총액, 업체명 같은 주요 필드를 올바르게 추출합니다. 총액은 거의 항상 하단 근처에서 가장 큰 숫자이고, 날짜는 인식 가능한 형식을 따르며, 업체명은 상단에 있습니다. AI는 개별 문자가 읽기 어려운 경우에도 이러한 레이아웃 관행을 암시적 기준점으로 사용합니다. 2025년 스마트폰 영수증 사진 100장을 대상으로 한 테스트에서 AI 추출은 총액과 날짜에서 약 92%의 필드 수준 정확도를 달성했으며, 텍스트가 가장 작고 눈부심의 영향을 가장 많이 받는 항목 설명에서는 약 80%로 떨어졌습니다.
자주 묻는 질문
AI가 100 DPI로 스캔한 문서를 읽을 수 있나요?
안정적으로는 불가능합니다. 100 DPI에서 표준 10pt 문자는 약 14픽셀을 차지하는데, 이는 어떤 AI 모델이 "8"과 "3" 또는 "5"와 "6" 같은 유사한 문자를 구별하기에 충분하지 않습니다. 초해상도 전처리 기능이 있는 일부 AI 도구는 부분적인 텍스트를 복구할 수 있지만, 정확도는 75% 미만으로 예상되며 숫자와 작은 글꼴에서 오류율이 높습니다. 300 DPI로 다시 스캔하는 것이 거의 항상 더 나은 해결책입니다.
AI가 기존 OCR보다 모션 블러를 더 잘 처리하나요?
훨씬 더 잘 처리합니다. 하지만 '더 잘 처리한다'는 '완전히 해결한다'는 의미는 아닙니다. AI는 단어 수준의 형태와 문서 맥락을 읽기 때문에 약간 흐릿한 "인보이스 번호" 레이블도 여전히 이해할 수 있습니다. 기존 OCR은 개별 문자를 분할하고 문자 경계가 흐려지면 작동이 중단됩니다. 차이는 중간 정도의 블러에서 가장 크며(AI는 5~12% 손실, 기존 방식은 20~35% 손실), 두 접근 방식 모두 안정적으로 작동하지 않는 심한 블러에서는 그 차이가 좁아집니다. 움직이면서 촬영할 때 발생하는 심한 모션 블러의 경우 이미지를 다시 캡처하는 것이 유일한 실용적인 해결책입니다.
AI가 팩스 문서에서 데이터를 추출할 수 있나요?
가능하지만 조건이 있습니다. AI는 팩스로 전송된 인쇄 텍스트에서 약 85~90%의 필드 수준 정확도를 달성하며, 이는 기존 OCR의 60~70%보다 높은 수치입니다. 나머지 오류는 작은 글꼴의 라인 항목, 희미한 인쇄물, 전송 노이즈가 심한 문서에 집중됩니다. 추출 전에 팩스 문서에 노이즈 제거 전처리 단계(중간값 필터 또는 적응형 임계값 처리)를 적용하면 결과가 5~10% 향상됩니다. 오류 비용이 큰 고가치 문서의 경우 추출된 필드에 대한 사람의 검증을 계획하세요.
AI 추출을 사용할 수 있는 최소 이미지 품질은 어느 정도인가요?
실용적인 기준은 다음과 같습니다: 200 DPI 이상의 해상도, 직각에 가까운 각도(5도 미만 기울기), 사람이 눈을 찡그리지 않고 텍스트를 읽을 수 있을 정도의 대비. 이 세 가지 기준을 동시에 충족하지 못하면 정확도가 80% 미만으로 떨어지며, 이 시점에서는 수동 수정 시간이 수동 입력 시간에 근접합니다. 문서가 세 가지 중 두 가지를 충족한다면 AI 추출을 시도할 가치가 있습니다. 하나도 충족하지 못한다면 먼저 입력 품질을 개선하세요.
AI는 물에 손상되거나 얼룩이 있는 문서를 처리할 수 있나요?
부분적으로 가능하며, 예측 불가능합니다. 물 손상은 균일하지 않습니다. 한 부분은 깨끗한 반면 다른 부분은 희미하게 번질 수 있습니다. AI는 깨끗한 부분은 정상적으로 추출하고 손상된 부분에서는 어려움을 겪습니다. 이는 사람이 읽을 때와 마찬가지입니다. 대비 향상으로 중간 정도로 희미해진 영역은 복구할 수 있지만, 문자가 물리적으로 합쳐진 심한 잉크 번짐은 어떤 소프트웨어로도 되돌릴 수 없습니다. 아카이브 문서의 경우 AI 추출과 손상된 부분에 대한 수동 검토를 함께 사용하는 것이 좋습니다.
JPEG 압축이 AI 추출 정확도에 영향을 미치나요?
네, 그리고 그 손상은 영구적입니다. JPEG 압축은 파일 크기를 줄이기 위해 미세한 디테일을 버리며, 한 번 버려진 디테일은 어떤 전처리 단계로도 복구할 수 없습니다. 높은 JPEG 압축(품질 설정 50% 미만)은 텍스트 주변에 8×8 픽셀 블록이 보이는 "블로킹 아티팩트"를 생성하여 문자 경계를 혼란스럽게 만듭니다. AI 모델은 가벼운 압축(품질 70 이상)을 잘 처리하지만, 높은 압축 이미지에서는 정확도가 5~10% 떨어집니다. 원본 스캔이나 사진이 있다면 재압축된 복사본 대신 그것을 사용하세요.
휴대폰 사진이 AI 추출에 평판 스캔만큼 좋을까요?
잘 찍은 휴대폰 사진(정면, 조명 양호, 흔들림 없음, 200 DPI 이상)의 정확도는 평판 스캔과 3~5% 포인트 차이에 불과합니다. 조건이 나빠지면 격차는 벌어집니다. 조명이 나쁘고 흔들린 휴대폰 사진은 깨끗한 스캔보다 15~25% 덜 정확할 수 있습니다. 실질적인 차이는 일관성입니다. 300 DPI 평판 스캐너는 거의 매번 동일한 품질을 제공하지만, 휴대폰 사진은 촬영 기술에 따라 크게 달라집니다. 문서를 정기적으로 처리한다면, 스캐너는 오류 수정 시간을 줄여 비용을 회수합니다.
2026년의 AI 문서 추출은 대부분의 사람들이 경험한 OCR 도구보다 저품질 입력을 훨씬 잘 처리합니다. 하지만 "훨씬 잘"이 "완벽"과 같지는 않습니다. 성능 저하 곡선은 급격하기보다 점진적입니다. 200 DPI에 약간의 흐림이 있어도 사용 가능한 데이터를 얻을 수 있습니다. 150 DPI 미만에 심한 흐림이나 복합 결함이 있으면 어려움을 겪게 됩니다. "AI가 흐릿한 문서를 읽을 수 있나요?"라는 질문에 대한 정직한 답변은 "직접 시도해보세요"입니다. 문서 유형, 품질 저하, 필드 중요성의 특정 조합에 따라 결과가 실무에 바로 사용 가능한지, 아니면 사람의 검토가 필요한지 결정되기 때문입니다. 가장 품질이 낮은 문서를 업로드하여 귀하의 품질이 곡선상 어디에 위치하는지 확인해보세요.
인쇄물과 필기 내용이 혼합된 문서(저품질 현장 양식에서 흔함)를 다루는 경우, AI가 사진 속 필기를 얼마나 잘 읽는지에 대한 가이드를 참조하세요. 형식 변동성이 품질 문제를 복합적으로 만드는 문서의 경우, AI가 PDF에서 데이터를 추출하는 방법에서 형식에 구애받지 않는 추출 방식을 다룹니다. 그리고 문서량이 자동화를 정당화하는지 평가 중이라면, AI 문서 추출이란 무엇이며 어떻게 작동하는지부터 시작하세요.