정부용 OCR 2026:
공공 기록, FOIA 및 규정 준수 디지털화 가이드
2024년 6월 30일 발효된 NARA M-23-07 지침은 모든 영구 연방 기록을 전자적으로 관리하도록 요구합니다. 그러나 연간 200~500만 건의 문서를 처리하고 FOIA 요청 하나당 15~30시간의 직원 시간이 소요되는 주 및 지방 기관의 과제는 단순히 종이를 PDF로 스캔하는 것이 아닙니다. 디지털 기록을 검색 가능하고, 비식별화 가능하며, WCAG 2.1 표준에 따라 접근 가능하고, 수십 년간 PDF/A로 보존 가능하며, 수집부터 공개까지 감사 가능하게 만드는 것입니다. 이 가이드는 단순한 문자 인식을 넘어 정부용 OCR에 실제로 필요한 것이 무엇인지, 그리고 AI 기반 추출이 전체 규정 준수 수명 주기에서 무엇을 가능하게 하는지 다룹니다.
핵심 요약
- 정부에서 가장 흔한 FOIA 비식별화 방식인 검은색 상자 덮어쓰기는 비식별 처리된 모든 단어를 추출 가능하고, 복구 가능하며, 법적으로 증거 개시 대상으로 남게 합니다.
- 템플릿 기반 추출은 각 부서의 모든 양식 레이아웃에 대해 별도의 템플릿이 필요합니다 — 500개 기관은 500개의 템플릿을 의미하며, 양식이 업데이트될 때마다 각각 조용히 깨집니다.
- 의미론적 AI 추출은 필드의 위치가 아닌 의미를 이해하여 문서를 읽습니다. 따라서 500개 기관의 다양한 레이아웃이 유지 관리할 템플릿 하나 없이 하나의 워크플로우로 연결됩니다.
정부 디지털 전환, 단순 스캔만으로는 부족한 이유
중간 규모의 지방자치단체는 200만~500만 건의 문서(건축 허가, 부동산 기록, 경찰 보고서, 법원 서류, 업체 계약서, 회의록, 세금 평가서)를 관리합니다. 종이 문서 보관 비용은 연간 평방피트당 25~40달러입니다. 단 한 건의 정보공개청구(FOIA) 요청에 응답하려면 관련 기록을 찾고 검토하고 수정한 뒤 제출하는 데 직원 15~30시간이 소요될 수 있습니다. 많은 기관이 동시에 수백 건의 미해결 요청을 처리하고 있음을 감안하면, 운영상의 부담은 엄청납니다.
기본적인 문서 스캔은 보관 문제를 해결합니다. 즉, 종이를 오프라인으로 옮기고 사무 공간을 확보합니다. 그러나 검색 가능한 텍스트, 구조화된 메타데이터, 수정 준비가 된 형식, 접근성 태그가 없는 스캔 PDF는 여전히 사실상 잠겨 있습니다. 이미지 기반 PDF는 사건 번호로 검색할 수 없고, 개인 식별 정보(PII)를 걸러내는 수정 도구로 검사할 수 없으며, 화면 판독기로 읽을 수 없고, 영구 기록에 대한 NARA 36 CFR § 1236 Subpart E 디지털화 표준을 충족하지 못합니다.
OCR(광학 문자 인식)은 스캔한 이미지를 사용 가능한 디지털 콘텐츠로 바꾸는 계층입니다. 하지만 OCR의 유형이 중요합니다. 기존 OCR은 문자 모양을 읽고 구분되지 않은 텍스트를 출력합니다. 페이지의 모든 단어가 레이블 없이 문자열로 나옵니다. 송장 번호, 사건 접수 번호, 허가 만료일, 업체 이름 등이 모두 동일한 텍스트 블록에 섞여 있습니다. 사람이 여전히 각 값을 올바른 열에 직접 복사해야 합니다. 이것이 99.5%의 문자 인식 정확도가 FOIA 요청당 여전히 15~30시간이 소요되는 워크플로우와 공존할 수 있는 이유입니다. 텍스트는 인식되지만, 구문 분석되거나 레이블이 지정되거나 다음 규정 준수 단계에 사용할 준비가 되지 않았기 때문입니다.
AI 기반 문서 추출(차세대 OCR)은 의미론적 이해를 도입합니다. 문자 모양을 읽는 대신, 비전 모델은 사람이 문서를 읽는 방식, 즉 법원 서류 12번째 줄의 문자열이 사건 번호임을 해당 필드가 수행하는 구조적 역할을 이해함으로써 인식합니다. 문자 인식과 문서 이해의 이러한 차이는 학문적인 것이 아닙니다. 이 차이가 공공 기록 사무소가 FOIA 요청에 2시간 만에 응답할 수 있는지, 아니면 2일이 걸리는지를 결정합니다.
정부 OCR을 정의하는 문서 유형
정부 기관은 한 가지 유형의 문서만 처리하지 않습니다. 각기 다른 필드 구조, 레이아웃 규칙, 규제 요구 사항을 가진 수십 가지 문서를 처리합니다. 문서 유형 간의 차이는 템플릿 기반 OCR이 공공 부문에서 실패하는 첫 번째 이유입니다.
| 문서 유형 | 주요 추출 필드 | 고유 규정 준수 요구 사항 |
|---|---|---|
| 건축 허가증 | 허가 번호, 신청자 이름, 부동산 주소, 평가액, 발급일, 만료일 | 시 조례 참조, 수수료 일정 적용 가능성 |
| 법원 제출 문서/명부 | 사건 번호, 당사자 이름, 제출일, 문서 유형, 판사 배정 | 베이츠 번호 매기기, 페이지 수준 무결성, FRCP 준수 |
| FOIA 요청 응답 | 요청 번호, 요청자 이름, 접수일, 적용된 면제 코드, 응답일 | 면제 추적 (b)(1)-(b)(9), NARA 지침에 따른 수정 코드 |
| 경찰 보고서 | 사건 번호, 보고 경찰관, 날짜/시간, 위치, 관련자, 혐의 | CJIS 보안 정책, 피해자/증인 개인정보 수정 |
| 세금 평가 기록 | 필지 ID, 평가액, 부동산 주소, 과세 연도, 신청된 면제 | 주 통일 회계 시스템 코드, GASB 준수 |
| 공급업체 계약/구매 | 계약 번호, 공급업체 이름, 계약 금액, 기간, 갱신 조항 | 공공 조달법, 입찰 내역 보존 |
| 인구 동태 기록 | 증명서 번호, 등록자 이름, 사건 발생일, 관할 구역 | 주별 개인정보 보호법, 제한된 접근 등급 |
| 보조금 신청서 | 보조금 번호, 신청 기관, 보조금 금액, 수행 기간 | 2 CFR 200 준수, 단일 감사 요구 사항 |
각 문서 유형은 서로 다른 부서, 종종 다른 소프트웨어 시스템이나 종이 양식에서 비롯되며, 고유한 레이아웃 규칙을 따릅니다. 카운티 서기의 혼인 허가 신청서는 보안관 부서의 사건 보고서와 구조적으로 유사점이 없습니다. 정부 OCR의 핵심 과제는 페이지의 문자를 인식하는 것이 아니라, 다양하고 일관성 없는 문서 형식을 기록 관리 시스템에 공급할 수 있는 통합 데이터 구조로 매핑하는 것입니다.
편집과 OCR — 순서가 중요한 이유
FOIA는 기관이 면제 정보를 편집한 상태로 요청된 기록을 공개하도록 요구합니다. 연방 기관의 면제 코드 (b)(1)~(b)(9)는 국가 안보(b)(1)부터 유정 지질 정보(b)(9)까지를 포괄하며, 가장 흔한 것은 개인 프라이버시(b)(6)와 법 집행(b)(7)입니다. 단일 FOIA 응답에는 수천 페이지에 걸쳐 수십 또는 수백 건의 개별 편집이 필요할 수 있습니다.
많은 정부 디지털화 계획이 잘못 이해하고 있는 기술적 순서는 다음과 같습니다:
편집 도구가 주민등록번호, 생년월일, 미성년 자녀 이름, 금융 계좌 번호 등 개인식별정보(PII)를 식별하려면 먼저 문서에 기계 판독 가능한 텍스트 레이어가 있어야 합니다. 개체명 인식(NER) 기능을 갖춘 AI OCR이 여기서 가치를 발휘합니다. 수천 페이지에 걸쳐 민감 정보 후보를 자동으로 표시하여 수동 검색 범위를 100%에서 검토 대상 하위 집합으로 줄여줍니다.
AI가 잠재적 PII를 표시하면 훈련된 검토자가 각 표시를 확인합니다. 이 과정은 완전히 자동화할 수 없습니다. 맥락에 따른 결정(이 'John Smith'가 공개되어야 하는 공무원인지, 신원이 보호되어야 하는 증인인지)에는 사람의 판단이 필요합니다. 검토 단계를 거쳐 확인된 편집 목록이 생성됩니다.
영구 편집은 가시 텍스트, 숨김 텍스트, 메타데이터, 주석 등 모든 레이어에서 기본 텍스트를 제거합니다. 검은 상자 오버레이나 하이라이트 덮개는 편집이 아닙니다. 그 아래 텍스트는 여전히 추출 가능합니다. 출력물은 복구 가능한 콘텐츠가 없는 깨끗한 PDF여야 합니다. 2002년 전자정부법과 FOIA 규정은 이 수준의 철저함을 요구합니다.
공개된 문서는 요청자가 탐색 및 검색 가능한 상태를 유지해야 합니다. 비면제 부분은 OCR 텍스트 레이어를 그대로 유지합니다. 여기서 적절한 순서가 중요합니다. 편집 후 OCR을 적용하면 편집된 영역이 영구히 제외됩니다. 편집 전에 OCR을 적용했지만 OCR 레이어를 정리하지 않으면 텍스트 레이어를 통해 편집된 콘텐츠가 유출될 수 있습니다.
실용적인 결론: 자동화된 PII 탐지를 가능하게 하려면 OCR을 충분히 일찍 적용해야 하지만, 최종 문서의 편집된 영역에서는 OCR 출력 레이어를 영구히 제거해야 합니다. 모든 OCR 도구가 이 정리 단계를 올바르게 처리하는 것은 아닙니다. 정부 OCR 솔루션을 평가할 때는 도구가 검은 상자로 '편집'할 수 있는지 여부뿐만 아니라 편집된 영역에서 텍스트 레이어를 실제로 제거하는지 구체적으로 질문하십시오.
PDF/A 및 장기 보존 요구 사항
NARA의 36 CFR § 1236 하위 파트 E는 디지털화된 영구 기록이 특정 형식 및 품질 기준을 충족해야 한다고 요구합니다. 문서 보존에 가장 적합한 표준은 PDF/A입니다. PDF/A는 장기 보존을 위해 설계된 ISO 표준 PDF 버전입니다. 외부 글꼴, 연결된 이미지 또는 시간이 지남에 따라 저하되는 소프트웨어별 기능에 의존할 수 있는 일반 PDF와 달리, PDF/A는 글꼴, 색상 프로필, 메타데이터 및 장치 독립적 렌더링 지침 등 파일에 필요한 모든 것을 자체적으로 포함합니다.
정부 기관의 경우 영구 기록에 PDF/A는 선택 사항이 아닙니다. 연방 기관 디지털 지침 이니셔티브(FADGI)는 구현 기준을 설정하며, NARA의 이전 지침은 디지털화된 영구 기록이 이를 준수해야 한다고 명시합니다. 하지만 OCR과의 교차점은 다음과 같습니다. 인식된 텍스트 레이어가 없는 PDF/A 파일은 보관용 래퍼에 담긴 이미지에 불과합니다. 형식 테스트는 통과하지만 사용성 테스트는 실패합니다. 5년 후 해당 기록에 대한 FOIA 요청이 들어오면, 2026년 OCR 텍스트 레이어가 보존되지 않았기 때문에 직원은 처음부터 전체 문서를 다시 OCR해야 합니다.
올바른 접근 방식은 OCR이 포함된 PDF/A입니다. 인식된 텍스트는 PDF/A 파일 내에 숨겨진 레이어로 저장되어 검색 및 추출이 가능하지만 뷰어에는 보이지 않습니다. 이는 이중톤 이미지의 보관 무결성과 텍스트의 기능적 검색 가능성을 모두 보존합니다. 포함된 텍스트 레이어가 있는 PDF/A를 생성하지 않는 모든 정부 OCR 워크플로는 미래의 FOIA 업무 지연을 초래합니다. 모든 향후 요청에 대해 동일한 문서를 다시 처리해야 하기 때문입니다.
정부용 OCR 솔루션을 선택할 때 출력이 포함된 OCR 텍스트 레이어와 함께 PDF/A-1 또는 PDF/A-2 적합성을 지원하는지 확인하십시오. PDF/A-2는 향상된 압축과 고급 그래픽 지원을 제공하므로, 텍스트와 함께 사진, 지도 또는 스캔된 서명이 포함된 문서에 중요합니다.
기관 간 서식 차이 — 템플릿이 실패하는 이유
기존 IDP 플랫폼이 사용하는 템플릿 기반 OCR은 문서 레이아웃마다 사전 구축된 추출 템플릿이 필요합니다. 사용자가 각 필드 위치에 영역을 그리고, 라벨을 지정한 후 템플릿을 배포합니다. 다음 업체가 약간 다른 서식(다른 글꼴, 다른 열 순서, 다른 라벨 용어)을 제출하면 템플릿이 깨져 수동 재작업이 필요합니다.
정부 기관은 이 문제를 대규모로 겪습니다. 500개 이상 기관이 각자 다른 PO 양식을 사용하는 단일 주 조달청을 생각해보세요. 15개 판사실에서 접수되는 법원 서류를 처리하는 카운티 서기관실, 또는 경찰, 기획, 재정, 공공사업, 공원 부서 등 각각 다른 기록 보관 형식을 가진 부서의 요청을 처리하는 시 FOIA 사무실도 마찬가지입니다. 템플릿 기반 OCR은 수백, 수천 개의 개별 템플릿이 필요하며, 양식이 업데이트될 때마다 유지보수가 필요합니다.
서식 독립적 추출 — AI가 위치가 아닌 의미적 이해로 문서를 읽는 방식 — 은 템플릿 병목 현상을 제거합니다. 데이터가 페이지 어디에 있는지 매핑하는 대신, 필요한 데이터(허가 번호, 신청자 이름, 평가액, 만료일)를 정의합니다. AI는 모든 부서, 모든 형식의 어떤 레이아웃에서든 해당 값을 찾습니다. 이 접근 방식은 실제 정부 기록 관리 방식과 일치합니다. 데이터 범주는 기관 간에 안정적이지만(모든 허가증에는 허가 번호가 있음), 해당 범주의 시각적 표현은 크게 다릅니다. 동일한 서식 차이 문제는 은행 문서 처리에서도 나타나며, 금융 기관은 수백 개 은행의 명세서 형식을 처리해야 합니다.
이는 AI OCR이 문서 이해에 가져오는 패러다임 전환과 동일합니다 — 위치 기반 인식에서 의미 기반 추출로의 이동입니다. 수십 개 출처의 기록을 관리하는 정부 기관에게 이 전환은 편의성 업그레이드가 아니라, 확장 가능한 프로젝트와 영구적인 템플릿 유지보수 인력이 필요한 프로젝트의 차이입니다.
ADA 및 WCAG 접근성 준수
미국 장애인법(ADA) 제2편은 주 및 지방 정부 서비스(디지털 기록 포함)가 장애인도 이용할 수 있도록 요구합니다. 법무부는 웹 콘텐츠 접근성 지침(WCAG) 2.1 레벨 AA 표준을 통해 이를 강화했으며, 이는 대중에게 제공되는 디지털 문서 및 기록에 적용됩니다.
정부 OCR의 경우, 이는 세 가지 구체적인 결과물을 의미합니다:
OCR 없이 스캔된 문서는 이미지에 불과합니다. 화면 읽기 프로그램(JAWS, NVDA, VoiceOver)은 이미지 기반 텍스트를 해석할 수 없습니다. OCR 텍스트 레이어는 단순히 숨겨진 오버레이가 아닌 태그가 지정된 PDF 콘텐츠로 포함되어야 보조 기술이 논리적 읽기 순서로 읽을 수 있습니다.
정부 문서는 종종 다단 구조입니다(법원 서류, 입법 보고서, 보조금 신청서). 기존 OCR은 흔히 여러 단을 하나의 텍스트 스트림으로 연결합니다(1단 1행, 2단 1행, 1단 2행...). 이렇게 되면 화면 읽기 프로그램이 출력을 이해할 수 없게 됩니다. 페이지 레이아웃을 이해하는 AI OCR은 논리적 읽기 순서를 유지합니다.
표, 체크박스(정부 양식에 흔함), 서명란은 접근성을 위해 태그 주석이 필요합니다. 이러한 요소를 자동으로 감지하고 태그가 지정된 PDF 구조로 변환하는 것은 표준 OCR 기능이 아닙니다. AI 비전 모델은 표와 양식 필드가 무엇인지 이해하여 식별할 수 있으므로, 문자 수준 OCR로는 불가능한 자동 태그 지정을 가능하게 합니다.
ADA 접근성은 정부 OCR에서 부차적인 고려 사항이 아닙니다. 기존 OCR의 기본 기능인 문자 인식 및 텍스트 출력만으로는 접근 가능한 문서를 만들 수 없습니다. WCAG 2.1 AA를 준수하는 출력을 생성하려면 레이아웃 분석, 의미 태그 지정, 읽기 순서 유지를 포함한 더 높은 수준의 문서 이해가 필요합니다. 조달 단계에서 이를 고려하지 않은 기관은 전체 디지털 저장소가 접근 불가능 상태가 되어 값비싼 수정 작업이 필요할 수 있습니다.
관리 연속성 및 감사 대비
디지털화된 정부 기록은 명백히 진본이며 변경되지 않았음을 입증할 수 있어야 합니다. FOIA, 연방 증거 규칙 및 주 공개 기록법에 따라 기관은 디지털 기록이 주장하는 바와 같음 — 즉, 특정 시간에 승인된 운영자가 원본 종이 문서로부터 생성했으며 캡처 이후 수정되지 않았음을 증명할 수 있어야 합니다.
이러한 관리 연속성 요구사항은 OCR 워크플로우에 구체적인 영향을 미칩니다:
- 변경 불가능한 원본 이미지: 원본 스캔 이미지는 OCR 처리와 별도로 이진 마스터로 보존되어야 합니다. OCR은 복사본에서 작동해야 하며 원본을 변경해서는 안 됩니다.
- 프로세스 로깅: 모든 OCR 작업(실행 시간, 소프트웨어 버전, 설정, 생성된 출력)은 기록되어 보관되어야 합니다. 이 메타데이터는 기록이 문제될 경우 진위 주장을 뒷받침합니다.
- 체크섬 검증: 원본 이미지와 OCR 출력의 암호화 해시(SHA-256)를 계산하여 저장해야 합니다. 향후 검증 시 해시를 비교하여 감지되지 않은 수정이 발생하지 않았음을 확인할 수 있습니다.
- 수정본 버전 관리: FOIA 담당자가 수정된 문서를 공개할 때, 기관은 수정되지 않은 원본(관리 연속성 포함)과 어떤 면제 코드로 무엇이 수정되었는지에 대한 로그를 모두 보관해야 합니다. 공개 버전의 OCR 텍스트 레이어에는 수정된 내용이 전혀 포함되지 않았음을 검증해야 합니다.
대부분의 상용 OCR 도구는 이러한 감사 요구사항을 염두에 두고 설계되지 않았습니다. 정부 기관은 프로세스 로그에 API 수준으로 접근할 수 있고, 체크섬 생성을 지원하며, 관리 연속성 추적을 처리하는 광범위한 기록 관리 시스템에 OCR 워크플로우를 통합할 수 있는 솔루션을 찾아야 합니다.
법률 맥락, 특히 법률 문서 및 법원 서류에 적용되는 OCR의 경우 관리 연속성 요구사항은 더욱 엄격합니다. FRCP 규칙 34는 전자적으로 저장된 정보가 "합리적으로 사용 가능한" 형식으로 제공되어야 한다고 요구합니다. 검증된 원본 이미지에서 감사된 프로세스를 통해 텍스트 레이어가 생성되었음을 입증할 수 있는 OCR 처리 문서는 해당 기준을 충족합니다. 원본을 추적할 수 없는 문서는 이의가 제기될 수 있습니다.
부서 간 처리를 처리하거나 외부 소스의 문서 접수를 통합해야 하는 기관의 경우, 공유 가능한 업로드 링크를 생성하여 제3자가 파일을 처리 대기열에 직접 제출할 수 있도록 하는 Collection Link와 같은 도구는 접수 지점을 중앙화하고 임시 이메일 첨부 파일이나 USB 전송을 없애 깔끔한 관리 연속성을 유지하는 데 도움이 됩니다.
자주 묻는 질문
OCR 처리 결과물이 NARA의 영구 기록 디지털화 기준을 충족하나요?
네, 결과물이 36 CFR § 1236 Subpart E 요구사항을 준수하는 경우 가능합니다. 즉, 디지털화된 이미지는 FADGI 품질 기준을 충족해야 하며, 규정에 명시된 메타데이터 필드가 파일 또는 항목 수준에서 캡처되어야 하고, OCR을 사용하는 경우 텍스트 레이어가 적절히 포함되어야 합니다. NARA는 영구 기록에 OCR을 요구하지 않지만, 이를 사용하기로 선택한 기관은 OCR 기술의 적절한 사용에 관한 업데이트된 이전 지침을 따라야 합니다. 핵심은 OCR 출력이 원본 비트맵 이미지를 대체하는 것이 아니라 검색 가능한 레이어로서 보완한다는 점입니다.
문서를 OCR한 후에 수정(redact)할 수 있나요, 아니면 다시 OCR해야 하나요?
수정 전에 먼저 문서를 OCR하고, 텍스트 레이어를 사용하여 PII를 식별 및 검토한 후, 수정된 영역에서 보이는 콘텐츠와 기본 텍스트 레이어를 모두 제거하는 영구 수정을 적용하고, 수정된 영역에 복구 가능한 텍스트가 남아 있지 않은지 확인해야 합니다. 수정 후에 OCR을 적용하면 수정된 콘텐츠가 자동 탐색 대상이 된 적이 없어 FOIA 처리에 OCR을 사용하는 효율성 이점이 사라집니다. 이미 잘못 수정된 문서(예: 텍스트가 복구 가능한 검은색 상자 오버레이)로 작업하는 경우, 물리적으로 수정된 문서를 다시 스캔하고 새 스캔본에 OCR을 적용하는 것이 때로는 가장 안전한 해결 방법입니다.
정부 문서의 ADA 준수를 위해 OCR이 필수인가요?
법령에 명시적으로 규정되지는 않았지만 실제로는 필수입니다. WCAG 2.1 AA 준수는 비텍스트 콘텐츠에 텍스트 대안이 있어야 함을 요구합니다. 이미지로 된 스캔 PDF 페이지에는 화면 판독기가 접근할 수 있는 텍스트가 없습니다. OCR이 이 텍스트 레이어를 만드는 유일한 실용적인 방법입니다. 그러나 기본 OCR만으로는(정확도가 높더라도) ADA 준수가 보장되지 않습니다. 출력물은 논리적 읽기 순서를 유지하고, 표와 양식 필드를 올바르게 태그하며, 문서 구조를 유지해야 합니다. 레이아웃을 이해하는 AI OCR은 기존의 문자 수준 OCR보다 WCAG를 준수하는 출력물을 생성할 가능성이 훨씬 높습니다.
여러 기관의 다양한 서식 레이아웃이 있는 문서를 OCR은 어떻게 처리하나요?
기존 템플릿 기반 OCR은 각각의 고유한 레이아웃에 대해 별도의 템플릿이 필요합니다. 이는 수백 개의 출처에서 문서를 접수하는 기관에게는 비현실적입니다. 형식에 구애받지 않는 AI 추출이 이 문제를 해결합니다. 필요한 데이터 필드(허가 번호, 신청자 이름, 발급일 등)를 정의하기만 하면 AI가 각 필드의 의미를 이해하여 모든 레이아웃에서 해당 필드를 찾아냅니다. 템플릿도, 서식 유형별 학습도 필요 없습니다. 이는 다양한 법원 서식에 걸친 법률 문서 추출에 사용되는 것과 동일한 기술로, 유사한 서식 변동 문제가 존재합니다.
정부 기록에 대한 OCR의 정확도는 어느 정도인가요?
인쇄된 서식, 타자 보고서, 컴퓨터 생성 기록과 같은 깨끗하고 타자된 문서의 경우, 최신 AI OCR은 명확하게 정의된 추출 필드에 대해 95-99%의 필드 수준 정확도를 달성합니다. 필기체 서식(블록체 85-95%, 필기체는 더 낮음), 오래된 정부 기록에서 흔히 볼 수 있는 카본지 서식 페이지, 손상되거나 퇴색된 원본, 텍스트 위에 겹쳐진 도장이나 인감이 있는 문서에서는 정확도가 떨어집니다. 출생/사망 증명서와 같은 필수 기록처럼 100% 충실도가 요구되는 영구 기록의 경우, AI 추출 후 사람의 검증 단계를 권장합니다. 국가기록원의 디지털화 품질 관리 가이드는 기록 유형에 따른 허용 가능한 오류율에 대한 프레임워크를 제공합니다.
OCR은 대규모 FOIA 요청 응답에 대한 일괄 처리를 처리할 수 있나요?
네 — 단일 요청이 수백 또는 수천 페이지에 달하는 경우가 많기 때문에 FOIA 작업에는 일괄 처리가 필수적입니다. 일괄 처리 우선 워크플로를 지원하는 AI OCR 플랫폼은 여러 문서를 동시에 수집하고, 모든 페이지에 일관된 추출 규칙을 적용하며, 출력을 단일 구조화된 파일로 병합할 수 있습니다. 이는 각 문서를 개별적으로 처리하는 것보다 훨씬 효율적이며, 특히 동일한 FOIA 요청이 다른 형식의 여러 부서 기록을 포함하는 경우에 그렇습니다. 주목해야 할 핵심 기능은 일괄 수준 출력 통합입니다. 하나의 FOIA 요청은 개별 파일 폴더가 아닌 하나의 검색 가능한 출력을 생성해야 합니다.