필기 문서 추출이 실패하는 이유 — 각 실패 유형의 예방 가능한 원인
필기 추출은 낙서, 희미한 표시, 인쇄체와 필기체 혼용, 문맥상 판독 불가, 기계적 손상 등 다섯 가지 예방 가능한 차원에서 실패합니다. 어떤 실패를 사전에 막을 수 있는지 알아보세요.
세 가지 유형의 추출 실패
필기체 추출 오류는 무작위로 발생하지 않습니다. 이는 세 가지 범주로 나뉘며, 자신의 오류가 어느 범주에 속하는지 아는 것이 문제 해결의 첫걸음입니다. 또는 해결책이 도구가 아닌 입력값을 변경해야 함을 알게 해줍니다.
입력 계층 실패는 AI 모델이 문서를 보기 전에 발생합니다. 올바른 추출에 필요한 정보가 이미지에서 누락되었거나 캡처 방식으로 인해 손상된 경우입니다. 이는 가장 흔한 실패 유형이며, 사용자가 가장 통제하기 쉽습니다.
인식 계층 실패는 추출 중에 발생합니다. 모델이 입력을 보지만 잘못 해석합니다. 비슷한 문자를 혼동하거나, 연결된 필기체를 잘못 처리하거나, 텍스트를 올바른 필드에 할당하지 못하는 경우입니다. 이러한 실패는 입력 품질과 필드 설계를 통해 부분적으로 통제할 수 있으며, 부분적으로는 기술의 현재 한계에 기인합니다.
침묵 실패는 위험한 범주입니다. 출력 결과는 정확해 보입니다. 필드가 채워져 있고, 형식이 유효하며, 신뢰도 점수도 높습니다. 하지만 데이터는 틀렸습니다. 모델이 존재하지 않는 값을 환각했거나, 단일 상위 오류가 검증 없이 종속 필드로 연쇄 전파되었기 때문입니다. 이러한 실패는 자동 검사를 통과하여 하류 시스템에 탐지되지 않은 채 도달합니다.
경험칙: 추출이 명백히 실패하면(필드 누락, 텍스트 왜곡, 형식 오류) 입력 계층 또는 인식 계층 문제입니다. 추출이 조용히 실패하면(그럴듯하지만 잘못된 데이터) 무음 실패 문제입니다. 두 번째 유형은 탐지가 더 어렵고 프로덕션 시스템에 도달했을 때 더 큰 비용이 발생합니다.
카테고리 1 — 입력 계층 실패
실패 #1: 화면상으로는 괜찮아 보이는 흐릿한 스캔
인지 방법: 추출 결과에서 절반 필드는 합리적인 텍스트, 나머지 절반은 무의미한 텍스트가 명확한 패턴 없이 나타납니다. 문서를 열었을 때는 읽을 수 있어 보였지만, 추출 출력은 AI가 다른 이미지를 보고 있었음을 시사합니다.
실제 상황: 표준 모니터에서 100% 확대로 선명해 보이는 문서도 문자 수준 인식에는 해상도가 너무 낮을 수 있습니다. 인간 시각 시스템은 문맥에서 빈 부분을 채우지만, AI 모델은 실제 픽셀 데이터로 작업합니다. 손글씨 "8"과 "6"의 150 DPI 스캔은 사람이 모양으로 구분하기에는 충분한 픽셀을 포함할 수 있지만, 모델이 하단 루프의 중요한 차이를 해결하기에는 충분하지 않습니다. 모델은 모호한 덩어리를 보고 추측하여 플래그 없이 통과할 만큼 높은 신뢰도로 필드 수준 오류를 생성합니다.
해결책: 손글씨가 있는 문서의 최소 해상도를 300 DPI로 설정합니다. 휴대폰으로 캡처한 문서는 기본 카메라 앱이 아닌 원근 보정 및 대비 향상을 적용하는 스캔 앱을 사용합니다. 동일한 문서를 150 DPI, 300 DPI, 600 DPI로 테스트합니다. 300에서 600 DPI로의 증가는 일반적으로 수익이 감소하지만, 150에서 300 DPI로의 증가는 손글씨 인식이 운이 아닌 실현 가능해지는 임계값입니다.
실패 사례 #2: 인쇄된 텍스트 아래에 묻힌 손글씨
인지 방법: 필드의 추출된 값이 손글씨 항목이 아닌 인쇄된 양식 레이블의 일부인 경우. 또는 추출된 값이 "Customer NamJohn"과 같이 두 항목의 문자가 결합된 경우 — "Customer Name:"은 인쇄된 레이블이고 "John"은 그 아래에 손으로 작성되었습니다.
실제 현상: 손글씨가 인쇄된 양식 레이블과 겹치거나 바로 위/아래에 위치할 때, 추출 엔진은 동일한 시각적 영역을 차지하는 두 개의 텍스트 흐름을 분리해야 합니다. 기존 OCR 엔진은 이 경우 치명적으로 실패합니다 — 영역의 모든 픽셀을 단일 텍스트 줄로 읽습니다. VLM 기반 시스템은 문서 구조를 이해하기 때문에 겹치는 텍스트를 더 잘 처리하지만, 정확도는 여전히 5~8% 포인트 저하됩니다. 임대 등록 양식에서 손글씨로 작성된 세입자 이름이 인쇄된 필드 레이블과 겹쳤던 UiPath 커뮤니티 사례는 이 실패 유형의 전형적인 예입니다 (UiPath Community Forum, 2024).
해결 방법: 추출용 양식 설계 시 인쇄된 레이블과 손글씨 영역 사이에 명확한 수직 간격을 두십시오. 최소 6mm 간격은 중첩 오류를 크게 줄입니다. 기존 양식의 경우, 이미지를 전처리하여 인쇄된 텍스트(보통 더 어둡고 균일함)와 손글씨 텍스트(보통 더 밝고 다양함) 간의 대비를 높이십시오. 전처리가 불가능하다면, 이러한 문서를 VLM 기반 파이프라인으로 라우팅하십시오 — 불완전하더라도 기존 OCR보다 혼합 콘텐츠 분리를 더 잘 처리합니다.
실패 사례 #3: 경고 없이 변경된 양식
인지 방법: 몇 주 동안 추출이 완벽하게 작동하다가 갑자기 특정 배치에서 실패합니다 — 일관되게 정확히 추출되던 필드가 이제 빈 값이나 잘못된 값을 반환합니다. 문서는 언뜻 보기에 동일해 보입니다.
실제 현상: 공급업체, 고객 또는 부서에서 양식 레이아웃을 변경했습니다 — 필드를 0.5인치 이동하거나, 레이블 이름을 바꾸거나, 텍스트 영역을 침범하는 로고를 추가했습니다. 추출 설정이 고정 좌표 또는 엄격한 필드 이름 매칭을 사용하는 템플릿에 의존하는 경우, 사소한 레이아웃 변경만으로도 전체 파이프라인이 중단됩니다. 이는 템플릿 기반 추출에서 가장 흔한 실패 모드이며, 정확성 문제가 아닌 구조적 문제입니다 — 추출 엔진은 설정된 대로 정확히 작동하고 있지만, 새 입력에 대해 설정이 유효하지 않게 된 것입니다.
해결 방법: 위치 템플릿에 의존하지 않고 필드 의미를 이해하는 추출 방법을 사용하십시오. 사용자 정의 열 추출 — 필드가 의미하는 바("송장 합계", "배송 날짜")로 정의하고 AI가 문서 내용을 이해하여 위치를 찾도록 하는 방식 — 은 템플릿의 취약성을 완전히 제거합니다. AI가 픽셀 좌표가 아닌 의미론적 의미를 찾기 때문에 동일한 열 정의가 다양한 출처의 다른 양식 레이아웃에서도 작동합니다. 이는 기존 OCR 파이프라인과 현대 AI 기반 추출 간의 근본적인 아키텍처 차이 중 하나이며, 두 접근 방식의 비교에서 자세히 살펴봅니다.
카테고리 2 — 인식 계층 오류
실패 #4: "0"이 "O"로 바뀜 — 문자 모호성 함정
인지 방법: 추출된 텍스트에 숫자 대신 문자가, 또는 그 반대가 나타납니다 — "5" 대신 "S", "0" 대신 "O", "1" 대신 "l", "8" 대신 "B". 오류 패턴은 일관적이며, 모든 실수는 단독으로 보면 시각적으로 유사한 문자들입니다.
실제 원인: 기존 OCR처럼 문자를 개별적으로 읽을 때, 모호한 형태는 엔진 학습 데이터에서 가장 가까운 픽셀 패턴을 가진 문자로 기본 설정됩니다. 상단이 평평하고 하단이 열린 손글씨 "5"는 손글씨 "S"와 거의 동일한 픽셀 패턴을 가집니다. 문맥 단서(이 필드는 숫자여야 함)가 없으면 엔진은 동전을 던지듯 결정합니다. 배송 수량, 송장 금액, 계량기 판독값 등 손글씨 숫자 필드가 있는 양식에서 이 단일 오류 클래스가 추출 오류의 대부분을 차지합니다. 여러 OCR 도구를 검토한 한 Reddit 사용자는 깔끔한 UI를 가진 시스템조차도 혼합 영숫자 콘텐츠가 있는 표에서 "수많은 필기 인식 오류"를 생성한다고 밝혔습니다 (r/computervision, 2024).
해결 방법: 해결책은 추출 방식에 따라 다릅니다. 기존 OCR의 경우, "이 필드는 숫자여야 함"과 같은 후처리 검증 규칙이 추출 후 대부분의 문자 모호성을 잡아냅니다. VLM 기반 추출의 경우, 모델이 "총 금액" 필드에 숫자 값이 들어가야 한다는 것을 문맥적으로 이해하므로 일반적으로 이러한 문제를 자동으로 해결합니다. VLM 백엔드에서 사용자 정의 열 추출을 사용하는 경우, 열 이름에 예상 형식을 지정하면("총 금액(숫자)") 모델에 명시적 제약 조건을 제공하여 값이 출력에 들어가기 전에 모호성을 해결합니다.
실패 사례 #5: "Hand Writing" — 단어가 분리되거나 합쳐질 때
인지 방법: 추출된 텍스트에 가상의 단어 경계가 나타납니다. "handwriting"이 "hand writing"으로, "the man"이 "them an"으로, "invoice number"가 "invoicen umber"로 변합니다. 또는 반대로, 필기자의 펜이 간격을 가로질러 흘러가면서 두 개의 개별 필기 필드가 하나로 합쳐집니다.
실제 원인: 단어 분할(한 단어가 끝나고 다음 단어가 시작되는 지점을 아는 것)은 간격이 일정한 인쇄 텍스트에서는 간단합니다. 필기의 경우 간격은 필기자의 선택에 따라 달라집니다. 어떤 필기자는 단어 내 글자 사이에는 큰 간격을 두고 단어 사이에는 작은 간격을 두는 반면, 다른 필기자는 펜을 떼지 않고 문장의 모든 글자를 연결합니다. 추출 엔진은 평균적인 필기를 기준으로 보정된 간격 임계값을 적용하는데, 여러분의 필기자는 평균적이지 않습니다. 그 결과 분할 오류가 발생하여 일관된 텍스트가 단어 샐러드로 변합니다.
해결 방법: VLM 기반 시스템은 언어 이해를 사용하여 단어 경계를 재구성하기 때문에 전통적인 OCR보다 분할 오류를 더 잘 처리합니다. "them an"은 의미 있는 구문이 아니며, 모델의 언어 지식이 텍스트 생성 단계에서 이를 "the man"으로 수정합니다. 이는 AI의 맥락적 추론이 인식 오류를 적극적으로 수정하는 경우입니다. 문서 디자인 측면의 해결 방법: 가능한 경우 자유 형식 텍스트를 위한 열린 줄 대신 개별 문자 상자(글자당 하나의 상자)가 있는 양식을 사용하십시오. 정부 세금 양식이 이러한 디자인을 사용하는 이유는 분할 모호성을 제거하기 때문입니다. 이는 인간 독자와 기계 추출 모두에 이점을 주는 제약 조건입니다.
실패 사례 #6: 다른 알파벳처럼 읽히는 필기체
인지 방법: 인쇄된 텍스트 필드는 완벽하게 추출됩니다. 필기체 필드, 특히 연결된 루프, 기울어진 문자 또는 압축된 필기가 있는 필드는 동일한 단어로 거의 인식할 수 없는 출력을 반환합니다. "world"와 같은 간단한 필기체 단어가 "wriod"로 돌아옵니다.
실제 원인: 필기체는 개별 문자 모양을 연속적인 획으로 대체합니다. 필기체 단어 중간에 있는 문자 "e"는 독립적으로 인쇄된 "e"와 전혀 다르게 보입니다. 이전 및 다음 문자에 연결된 루프입니다. 전통적인 OCR의 문자 분할 우선 접근 방식은 개별적으로 작성되지 않은 문자를 분리할 수 없습니다. 2025~2026년 세대의 VLM은 문자를 조립하는 대신 단어 모양을 전체적으로 처리하기 때문에 필기체를 더 잘 처리하지만, 정확도 한계는 여전히 인쇄 텍스트나 블록체 필기보다 상당히 낮습니다. 독립적인 벤치마크에 따르면 전체 필기체의 필드 정확도는 75~88%인 반면 블록체는 85~93%로, 이는 특정 모델의 결함이 아닌 입력의 본질적인 어려움을 반영하는 격차입니다 (Suparse, 2026).
해결 방법: 필기체를 인쇄체만큼 정확하게 만드는 기술적 해결책은 없습니다. 이는 본질적인 정확도 한계입니다. 실질적인 완화 방법은 2단계 접근 방식입니다. 필기체 필드가 정보 제공용(메모, 코멘트, 설명)인 문서의 경우 낮은 정확도를 수용하고 신뢰도 기반 라우팅을 사용하여 낮은 신뢰도의 추출 항목을 사람이 검토하도록 플래그를 지정합니다. 필기체 필드가 거래용(금액, 계좌 번호, 법적 식별자)인 문서의 경우 해당 필드를 인쇄체 대문자로 작성하도록 요구해야 합니다. 이는 기술 솔루션이 아닌 프로세스 규칙입니다. "인쇄체로 명확히 작성" 지침과 제한된 작성 영역을 추가하는 양식 재설계는 원천적으로 필기체 필드의 양을 줄입니다. 입력 품질과 열 설계를 통해 가능한 정확도 개선 사항은 당사의 종합 정확도 가이드에서 다룹니다.
카테고리 3 — 무음 오류
오류 #7: 존재하지 않았던 데이터 — AI 환각
인식 방법: 가장 교활한 증상입니다. 추출 결과의 모든 필드가 채워져 있습니다. 값의 형식이 올바르게 지정되어 있습니다. 유효성 검사 오류를 트리거하는 항목이 없습니다. 그러나 출력을 원본 문서와 대조하면 하나 이상의 필드에 작성자가 입력하지 않은 데이터가 포함되어 있음을 알 수 있습니다. 예를 들어, 비어 있었던 필드에 날짜가 채워져 있거나, 금액이 정확해 보이지만 출처와 일치하지 않거나, 페이지의 다른 부분에 있는 맥락에서 모델이 추론한 공급업체 이름이 있는 경우입니다.
실제 현상: VLM 기반 추출 모델은 문자를 인식할 뿐만 아니라 텍스트를 생성합니다. 필드가 실제로 비어 있거나 필기가 읽기 어려운 경우, 모델은 "있어야 할" 내용에 기반하여 그럴듯한 값을 생성할 수 있습니다. 이는 VLM이 지저분한 필기를 명확히 하는 데 매우 효과적으로 만드는 동일한 추론 능력이, 명확화에서 조작으로 넘어갈 때 약점이 됩니다. 이는 AI 기반 추출을 기존 OCR과 가장 극명하게 구분하는 오류 모드입니다. 기존 OCR은 빈 필드나 읽을 수 없는 필드에 대해 아무것도 반환하지 않거나 쓰레기 값을 반환하는 반면(감지 가능한 오류), VLM 추출은 설득력 있지만 가공된 데이터를 반환할 수 있습니다(감지 불가능한 오류). 여러 도구를 검토한 Reddit 사용자는 이를 명시적으로 언급했습니다: "ChatGPT는 매우 인상적인 필기-텍스트 변환을 제공할 수 있지만 환각 현상도 겪었으며, 구조화된 데이터를 안정적으로 추출할 수 없었습니다" (r/computervision, 2024).
해결 방법: 환각 현상은 제거할 수 없습니다. 이는 생성 모델에 내재된 속성입니다. 통제할 수는 있습니다. 세 가지 방어 계층이 있습니다. 첫째, 필드별 신뢰도 점수를 제공하는 추출 시스템을 사용하고 오류 비용이 큰 필드에 대해 높은 신뢰도 임계값(0.90 이상)을 설정합니다. 둘째, 교차 필드 유효성 검사 규칙을 구현합니다. "총 금액" 필드가 채워져 있으면 이를 구성하는 라인 항목 필드도 채워져 있어야 합니다. 총액이 채워져 있는데 라인 항목 필드가 비어 있다면 이는 환각의 위험 신호입니다. 셋째, 미션 크리티컬 워크플로우의 경우 높은 신뢰도 출력 샘플에 대한 사람의 검토 단계를 유지합니다. 이는 시스템이 플래그를 지정한 오류를 수정하기 위한 것이 아니라 시스템이 확신했던 오류를 잡아내기 위한 것입니다. 이는 기존 OCR 오류 수정과는 다른 검토 전략이며 VLM 기반 파이프라인에 필수적입니다.
실패 #8: 모든 것을 제어하는 체크박스
식별 방법: 추출 결과에서 비어 있어야 할 필드에 데이터가 포함된 경우 — "기존 병력 없음"이 선택된 양식에 환자 병력 세부 정보가 입력되거나, 상위 조건이 '거짓'으로 표시되었는데 종속 필드가 채워진 경우. 개별 추출은 단독으로 보면 정확해 보이지만, 오류는 필드 간 구조적 관계에 있습니다.
실제 원인: 조건부 로직이 있는 양식(이 체크박스를 선택하면 추가 섹션이 표시되고, "예"라고 답하면 확장되며, 한 옵션을 선택하면 다른 옵션이 숨겨짐)은 필드 간 구조적 종속성을 만듭니다. 추출 과정에서 체크박스를 놓치거나 "예"를 "아니오"로 잘못 읽으면, 개별 문자가 완벽하게 읽혔는지와 관계없이 모든 종속 필드가 부정확해집니다. 단일 이진 오류가 여러 필드 실패로 이어집니다. 이는 고차원적인 실패 모드입니다. 추출은 문자 수준에서는 정확하지만 구조적으로는 잘못된 것입니다. 벤치마크는 일반적으로 개별 필드를 단독으로 평가하고 교차 필드 종속성은 평가하지 않기 때문에 (ImageToTable.ai, 2025) 공급업체 벤치마크에서 가장 덜 논의되는 실패 모드입니다.
해결 방법: 조건부 트리거 필드를 명시적으로 캡처하도록 추출 열 세트를 설계하십시오. 의료 접수 양식에 "기존 병력 (예/아니오)"가 있다면, 이를 별도의 열로 만드십시오. 그런 다음 유효성 검사 규칙을 만드십시오. "기존 병력"이 "아니오"이면 "병력 세부 정보" 필드는 비어 있어야 합니다. "기존 병력"이 "예"인데 "병력 세부 정보"가 비어 있으면 검토 대상으로 표시하십시오. 이렇게 하면 조용한 구조적 오류를 감지 가능한 유효성 검사 오류로 전환할 수 있습니다. 조건부 로직이 광범위한 양식의 경우, 더 높은 비율의 추출을 사람이 검토하도록 라우팅하십시오. 조건부 종속성을 놓치는 비용이 올바르게 추출되었을 수도 있는 양식을 검토하는 비용보다 더 큽니다.
자체 추출 결과 감사 방법
위의 실패 모드는 진단 프레임워크입니다. 수동 검토에 시간을 들이지 않고 자신의 문서에 적용하는 방법은 다음과 같습니다.
1단계: 실제 유입 문서에서 50개를 무작위로 추출합니다. 깨끗한 문서가 아닌, 여백 메모, 삭제된 값, 혼합된 필체가 있는 문서를 포함하세요. 이런 문서에 실패가 집중됩니다.
2단계: 각 문서의 각 필드를 다음으로 표시합니다: 정확, 명백히 오류(깨진 텍스트, 누락된 값, 형식 오류), 또는 모호하지만 오류(맞아 보이지만 틀림). 명백한 오류와 모호한 오류의 비율은 실패 프로필이 주로 입력/인식(명백한 오류)인지, 무음(모호한 오류)인지 알려줍니다. 대부분의 팀은 오류의 20~40%가 모호하지만 오류인 경우임을 발견합니다 — 이는 추적하지 않던 범주입니다.
3단계: 각 잘못된 추출에 대해 위의 8가지 패턴을 사용하여 실패 모드를 분류합니다. 범주를 알면 오류당 약 30초가 소요됩니다. 50개 문서를 분류한 후 실패 프로필을 얻을 수 있습니다: 입력 계층 40%(캡처 프로세스 수정), 인식 계층 35%(필드 디자인 및 열 이름 개선), 무음 25%(검증 규칙 및 수동 검토 체크포인트 추가). 이 프로필은 일반적인 "정확도 개선" 노력이 아닌, 실제 실패 패턴에 맞는 특정 개입에 투자할 위치를 알려줍니다.
4단계: 최상위 실패 범주에 맞는 수정을 적용합니다. 입력 계층 실패가 지배적이면 다른 것을 건드리기 전에 스캔 프로세스를 업그레이드하세요. 무음 실패가 예상보다 큰 비중을 차지하면 검증 규칙을 추가하고 수동 검토 샘플 비율을 높이세요. 수정 후 새 50개 문서 샘플에서 다시 측정합니다. 절대 정확도 숫자가 아닌 실패 프로필의 변화가 개입이 효과가 있었는지 알려줍니다.
자주 묻는 질문
추출 오류가 도구 문제인지 문서 문제인지 어떻게 알 수 있나요?
동일한 문서를 두 가지 다른 추출 방법(예: 기존 OCR 파이프라인과 VLM 기반 추출 도구)으로 실행해 보세요. 두 방법 모두 동일한 필드에서 실패한다면 문서 자체에 문제가 있는 것입니다(입력 품질이 낮거나 필체를 읽을 수 없는 경우). 하나는 올바르게 추출하고 다른 하나는 그렇지 않다면 도구나 설정이 병목 지점입니다. 이 차등 테스트를 통해 몇 분 안에 변수를 분리할 수 있습니다.
AI 환각을 완전히 방지할 수 있나요?
아니요. 환각은 생성형 AI 모델에 내재된 현상이며 설정이나 입력 품질 개선만으로 제거할 수 없습니다. 대신 통제할 수 있습니다: 신뢰도 점수를 사용하여 신뢰도가 낮은 추출을 식별하고, 터무니없는 출력을 걸러내는 교차 필드 검증 규칙을 구현하며, 신뢰도가 높은 출력을 샘플링하는 사람의 검토 단계를 유지하세요. 특히 시스템이 확신했던 오류를 잡아내는 것이 중요합니다. 이러한 오류가 환각일 가능성이 가장 높기 때문입니다.
테스트 문서에서는 추출이 완벽하게 작동하는데 실제 운영 환경에서는 실패하는 이유는 무엇인가요?
거의 항상 문서 다양성 문제입니다. 테스트 문서는 깨끗하고 최신이며 평균적인 경우를 대표하는 경향이 있습니다. 실제 운영 문서에는 긴 꼬리(long tail)에 해당하는 문서들(2018년 팩스, 움직이는 트럭 위에서 볼펜으로 작성된 양식, 커피 얼룩과 여백 메모가 있는 문서)이 포함됩니다. 이 글에서 다루는 실패 모드는 입력 문서 중 최악의 10~15%에 집중되어 있습니다. 테스트 세트에 이러한 문서가 포함되지 않았다면 실제로 중요한 것을 측정하지 못하는 것입니다. 마지막 운영 배치에서 가장 지저분한 문서 20개를 테스트 세트에 추가하고 다시 실행하세요.
가장 흔한 단일 실패 모드는 무엇인가요?
필기 숫자 필드의 문자 모호성("5"를 "S"로, "0"을 "O"로, "1"을 "l"로 읽는 경우)은 다른 어떤 단일 원인보다 더 많은 추출 오류를 차지합니다. 이는 인식 계층의 실패로, 입력 품질 개선(더 높은 해상도, 더 나은 조명)으로 줄일 수는 있지만 완전히 제거할 수는 없습니다. 가장 효과적인 완화 방법은 필드 수준 형식 제약 조건입니다. 특정 열에 숫자 값만 포함되어야 한다고 추출 시스템에 알리는 것입니다. 시스템이 형식 힌트를 지원하는 경우 열 정의 자체에서 이 작업을 수행할 수 있습니다.
추출 전에 모든 양식을 재설계해야 하나요?
통제 가능한 양식(내부 양식, 직접 설계하는 수집 문서)의 경우, 추출에 최적화된 설계(개별 문자 입력란, 명확한 레이블-필드 분리, 제한된 작성 공간, "인쇄체로 또박또박 작성" 안내)로 재설계하는 것이 가장 효과적인 투자입니다. 통제 불가능한 양식(공급업체 청구서, 고객 제출 문서, 정부 양식)의 경우, 입력 품질과 필드 설계에 집중하세요. 양식 자체를 바꿀 수 없을 때 변경할 수 있는 변수입니다.
추측은 그만, 진단을 시작하세요
추출 실패는 분류하기 전까지 무작위로 느껴집니다. 위의 여덟 가지 패턴은 진단 언어를 제공합니다. 잘못된 결과를 보고 "이건 실패 #4, 문자 모호성 문제야. 해결 방법은 열 정의에 형식 제약 조건을 추가하는 거야"라고 말할 수 있게 해줍니다. "안 되네, 필체가 너무 지저분했나 보다"라고 말하는 대신 말이죠. 50개 문서 감사는 한 시간이면 끝납니다. 이 감사가 제공하는 통찰력, 즉 추출 파이프라인이 실제로 실패하는 지점(당신이 가정하는 지점이 아닌)은 다음 한 시간의 개선 노력이 정확도를 한 자릿수로 올릴지 두 자릿수로 올릴지를 결정합니다.
감사를 실행하세요. 처음 열 개의 오류를 분류해보세요. 끝나기도 전에 패턴이 보일 것입니다.