AI는 필기 회계 장부를 얼마나 정확하게 읽을까?

2025년 AIMultiple의 벤치마크에 따르면 GPT-5는 필기체에서 95%의 정확도를 기록했고, Google Document AI는 동일한 샘플에서 63.4%를 기록했습니다. 두 수치 모두 깨끗한 단일 언어 필기 단락 100개로 구성된 데이터 세트에서 나온 결과로, 손으로 그린 격자선, 희미한 볼펜 기입, 한영 혼용 스크립트가 있는 회계 장부가 아닙니다. 벤치마크 수치와 실제 장부 페이지를 추출 도구에 입력했을 때 발생하는 결과 사이의 격차는 대부분의 정확도 주장이 시사하는 것보다 훨씬 큽니다.

정확도는 하나의 숫자가 아닙니다

대부분의 필기 인식 벤치마크는 단일 정확도 백분율을 보고합니다. Suparse의 2026년 리뷰에 따르면 AIMultiple 벤치마크에서 GPT-5가 필기체에 대해 95%의 정확도를 보였다고 합니다. Extend AI는 LLM 기반 솔루션이 통제된 벤치마크에서 약 90%의 정확도를 달성하는 반면, 기존 OCR 도구는 필기체에 대해 평균 64%의 정확도를 보인다고 언급합니다. 이러한 비교는 유용하지만, 한 가지, 즉 독립된 텍스트 단락의 문자 수준 전사를 측정합니다.

수기 장부(台账)는 AI에 전사할 단락을 제시하지 않습니다. 손으로 그린 격자선, 눈대중으로 맞춘 열, 각 항목이 위 행에 의존하는 누적 행으로 구성된 표를 제시하며, 이 표가 필기체로 작성되어 있습니다. 장부에 대한 정확도 문제는 네 가지 차원을 가지며, 첫 번째 차원에서 높은 점수를 받더라도 나머지 세 가지 차원에서 유용한 결과를 보장하지 않습니다.

네 가지 차원: (1) 문자 수준 — AI가 각 숫자와 문자를 올바르게 읽었는가? (2) 필드 수준 — 각 값을 올바른 필드(차변 vs 대변, N행 vs N+1행)에 할당했는가? (3) 구조 수준 — 손으로 그린 격자의 열 배치를 이해했는가? (4) 비즈니스 로직 수준 — 추출된 데이터가 회계 규칙(기말 잔액 = 기초 잔액 + 차변 - 대변)을 충족하는가? 각 차원에는 고유한 정확도 범위가 있으며, 이를 개별적으로 이해하는 것이 장부가 AI 추출에 적합한지 여부를 결정합니다.

차원 1: 문자 수준 정확도 — 각 숫자와 문자 읽기

이것이 대부분의 벤치마크가 측정하는 것입니다. 2025년 arXiv 연구(2503.15195)는 IAM 필기 데이터베이스에서 비전-언어 모델을 벤치마킹했으며, GPT-4o의 경우 1.39%, GPT-4o-mini의 경우 1.74%의 낮은 문자 오류율(CER)을 발견했습니다. 이는 깨끗한 단일 언어 영어 필기체에서 문자의 98.3–98.6%가 올바르게 읽혔음을 의미합니다. Claude Sonnet 3.5는 8.55% CER(91.5% 정확도)을 기록했으며, InternVL2-8B와 같은 오픈 소스 모델은 24.74% CER(75.3% 정확도)을 기록했습니다.

이 수치는 최상의 경우, 즉 선명한 필기, 좋은 조명, 300 DPI 스캔에 적용됩니다. 실제 장부 페이지는 변수를 도입하여 범위를 더 넓힙니다.

입력 품질	AI 문자 정확도 (영어 숫자)	AI 문자 정확도 (혼합 중국어/영어)
깨끗하고 간격이 좋은 인쇄체 필기, 300 DPI	96–98%	93–96%
연속 필기체, 일정한 필기 압력	90–94%	85–90%
급하게 쓴 필기, 가변적인 문자 크기	82–90%	75–85%
흐릿한 잉크, 누런 종이, 200 DPI 미만	70–80%	60–75%

영어 숫자와 혼합 중국어-영어 필기체 간의 격차는 실제로 존재하며 충분히 보고되지 않았습니다. 중국어 필기 인식은 독특하게 어렵습니다. GB18030-2005 표준은 27,533개의 중국어 문자를 정의하는 반면, 라틴 알파벳은 약 100개의 기호를 정의합니다. iOS용 실시간 중국어 필기 인식에 대한 Apple의 연구는 충분한 훈련 데이터가 있으면 "인벤토리가 증가함에 따라 정확도가 천천히 저하될 뿐"임을 확인합니다. 그러나 모델은 未(wèi, "아직")와 末(mò, "끝")처럼 한 획 차이로 구분되는 문자를 구별해야 하며, 장부 맥락이 모호성을 해소하는 데 도움이 될 수 있지만 문자 수준의 과제는 여전히 남아 있습니다.

이 숫자가 실제로 의미하는 바: 30행 6열(180개 데이터 포인트, 약 800~1,200자)으로 구성된 원장 페이지에서 문자 수준 정확도 95%는 페이지당 40~60자의 오인식을 발생시킵니다. 대부분은 필드 수준 오류로 이어지지 않습니다. 긴 설명 필드의 오인식 문자는 외관상 문제일 뿐이지만, 차변 열의 숫자 오인식은 심각한 문제입니다.

차원 2: 필드 수준 정확도 — 올바른 열에 값 할당

여기서 정확도 논의가 일반적인 필기체 벤치마크와 달라집니다. 문자 수준 정확도는 AI가 "1,350"을 올바르게 읽었는지 측정합니다. 필드 수준 정확도는 그 "1,350"이 "차변" 열이 아닌 "대변"이나 "잔액" 열에, 그리고 13행이나 15행이 아닌 14행에 할당되었는지 측정합니다.

명확한 격자선이 있는 인쇄된 표의 경우 필드 수준 정확도는 문자 수준 정확도와 거의 동일합니다. 경계가 명확하기 때문입니다. 손으로 그린 원장 표의 경우 그 차이가 벌어집니다. AI는 불완전한 단서로부터 열 경계를 추론해야 합니다:

완벽하게 직선이 아닌 손으로 그린 세로선. 자가 미끄러지거나 손이 고르지 않으면 페이지를 가로질러 약간 기울어진 열 구분선이 생깁니다. 20cm 페이지 너비에서 1도 기울어지면 가장 오른쪽 열 경계가 3.5mm 이동합니다. 이는 손글씨 숫자 옆이 아닌 숫자 위를 지나갈 만한 거리입니다.
측정이 아닌 눈대중으로 맞춘 열. 손으로 원장 격자를 그리는 회계사는 열 간격을 정확하지 않게 대략적으로 둡니다. "날짜" 열이 1페이지에서는 2.5cm, 50페이지에서는 2.8cm일 수 있습니다. 기존 템플릿 기반 OCR은 고정 좌표를 기대하기 때문에 여기서 실패합니다. 필드 의미로 읽는 AI(짧은 날짜 형식(YY/MM/DD)이 정확한 수평 위치와 관계없이 날짜 열에 속한다는 것을 인식)는 페이지별 재보정 없이 이러한 변동을 처리합니다.
간격이 최소화된 빽빽한 행. 40개의 좁은 행이 빽빽하게 채워진 원장 페이지는 행당 5~6mm만 남깁니다. 한 행의 필기체 하강부(예: 'g'나 'y'의 꼬리)가 아래 행의 상승부와 겹칠 때, AI는 N행이 끝나고 N+1행이 시작되는 지점을 결정해야 합니다. 이 행 경계 모호성은 원장 추출에서 필드 수준 오류의 가장 큰 원인입니다.

비교적 일관된 손으로 그린 열과 표준 행 간격을 가진 원장 페이지의 경우, 필드 수준 정확도는 문자 수준 정확도보다 약 3~5%포인트 낮습니다. 문자 정확도 93%에서 필드 정확도 88~90%를 기대하십시오. 문자 정확도 85%(빠른 필기체)에서 필드 정확도 80~82%를 기대하십시오. 실제 의미: 30행 페이지에서 수동 수정이 필요한 3~4개 필드를 예상하십시오. AI가 필기체를 잘못 읽어서가 아니라 올바른 값을 잘못된 위치에 배치했기 때문입니다.

사용자 정의 열 추출의 장점은 추출 전에 "차변 금액" 및 "계정명"과 같은 필드 이름을 정의하여 AI에 의미론적 대상을 제공한다는 것입니다. AI는 격자선만으로 열 레이아웃을 추론하려고 시도하는 대신 "행 구조에서 차변 금액처럼 보이는 것"을 검색하여 올바른 출력 열에 배치합니다. 템플릿 없는 추출 가이드에 설명된 대로, 이 의미론적 접근 방식은 어떤 전처리 단계보다 필드 수준 오류를 더 효과적으로 줄입니다.

수작업 입력은 그만 — AI가 대신 읽어드립니다

이미지나 PDF를 업로드하세요 — 10초 만에 정형 데이터로

지금 체험하기 →

회원가입 불필요 · 카드 불필요 · 10초 내 결과

차원 3: 구조 정확도 — 손으로 그린 표 이해하기

이 차원은 기존 필기체 벤치마크에는 없는 개념입니다. AI가 표 구조, 즉 행과 열, 헤더 간의 관계와 장부를 정의하는 누적 논리를 올바르게 해석하는지 측정합니다.

최신 AI 모델은 Sparkco 2025 벤치마크 분석에서 설명하는 "레이아웃 인식 분석"을 사용합니다. 이는 LayoutLM과 같은 멀티모달 아키텍처로 "텍스트와 표, 열을 포함한 복잡한 레이아웃을 모두 이해"합니다. 장부에서는 다음을 인식해야 합니다:

12행의 기말 잔액 = 11행의 기말 잔액 + 12행의 차변 – 12행의 대변
"계정명" 열은 일반적으로 텍스트를 포함하며 숫자가 아님 — 따라서 해당 열의 "1,350"은 유효한 항목이 아니라 잘못 배정된 것일 가능성이 높음
"科目名称"과 같은 열 헤더는 중국어 텍스트 필드를 설명하며, 그 아래에 배치된 값은 해당 의미적 기대와 일치하는지 평가되어야 함

손으로 그린 장부의 구조 정확도는 세 가지 품질 수준으로 나뉩니다:

일관된 표, 인쇄 또는 깔끔한 손글씨: 행의 90~95%가 올바르게 구조화됨 — 즉, 열이 올바르게 매핑되고, 행 경계가 식별되며, 누적 관계가 유지됨. 이는 가장 일반적인 경우로, 자를 사용해 열을 그리고 매달 동일한 레이아웃을 유지하는 회계사의 장부입니다.

일관되지 않은 표, 가변적인 손글씨 선: 80~90%. AI는 전반적인 레이아웃을 이해하지만 페이지당 1~2행을 잘못 할당할 수 있음 — 두 개의 좁은 행을 하나로 병합하거나 넓은 행을 둘로 분할. 이는 페이지마다 열 너비가 눈에 띄게 다르거나, 표 선이 너무 희미해 AI가 내용이 아닌 구조로 처리할 때 발생합니다.

표 없음 또는 심하게 손상된 표: 70~80%. 장부에 수평선만 있고(세로 열 구분선 없음) 오래된 종이에 표가 거의 보이지 않을 정도로 퇴색된 경우, AI는 내용 패턴만으로 열 구조를 추론해야 함 — 짧은 날짜 문자열 뒤에 긴 설명, 그 뒤에 숫자 값이 오는 패턴을 인식. 이는 가장 어려운 경우이며 가장 많은 구조 오류를 발생시킵니다.

일반 벤치마크가 놓치는 중요한 점: 구조 오류는 문자 오류보다 발견하기 쉽습니다. AI가 하나의 행을 둘로 분할하면 출력에 30행이 있어야 할 곳에 31행이 생깁니다 — 명백한 위험 신호입니다. 차변 금액에서 "3"을 "8"로 잘못 읽으면 행별 확인 없이는 오류가 보이지 않습니다. 구조 오류는 시끄럽고, 문자 오류는 조용합니다. 이러한 비대칭성은 검증 전략에 실질적인 영향을 미칩니다.

차원 4: 비즈니스 로직 수준 정확도 — 원장이 균형을 이루는가?

이 차원은 원장과 거의 그 외의 것에는 존재하지 않습니다. AI가 필체를 올바르게 읽었는지 측정하지 않습니다. 추출된 데이터가 유효한 원장을 정의하는 회계 규칙을 충족하는지 측정하며, 이를 통해 이전 세 차원의 오류를 동시에 포착합니다.

핵심 규칙: 기말 잔액 = 이전 행의 기말 잔액 + 현재 행의 차변 – 현재 행의 대변입니다.

회계 용어로 이는 누적 잔액 공식으로, 원장을 독립적인 항목 목록이 아닌 원장으로 만드는 산술입니다. FASB ASC 105에 따라 관리되는 GAAP 준수 부기는 모든 총계정원장 계정이 모든 항목에 걸쳐 이 누적 무결성을 유지하도록 요구합니다. 잔액이 계산되지 않는 원장은 부정확할 뿐만 아니라 불가능합니다.

비즈니스 로직 정확도 검사는 두 방향으로 작동합니다:

순방향 검증: 각 행에 대해 추출된 차변 및 대변 값에서 예상 기말 잔액을 계산합니다. 추출된 잔액과 비교합니다. 일치하면 해당 행은 수동 입력이나 표준 OCR이 제공하지 않는 이중 확인을 통과합니다. 차변/대변 값과 잔액 값이 독립적으로 읽혔고, 산술적 관계가 읽기를 확인하거나 거부하기 때문입니다.
역방향 검증: 47행에서 불일치가 발견되면 역추적합니다: 46행의 잔액이 올바른가? 45행은? 이는 발원 행(계산된 잔액이 추출된 잔액과 달라지는 첫 번째 행)을 분리하고, 오류가 해당 특정 행의 차변 오독, 대변 오독, 또는 잔액 오독인지 밝힙니다.

도구의 계산된 열 기능을 사용하면 이 검증이 자동으로 이루어집니다: "잔액 확인"이라는 열을 규칙 이전 잔액 + 차변 - 대변으로 정의하면, AI가 추출 중 모든 행에 대해 예상 잔액을 계산하여 불일치를 원천에서 표시합니다. 이는 원장 추출에 존재하는 무료 정확도 개선에 가장 가까운 것이며, 전적으로 원장 구조의 기능이지 AI 모델의 필체 기술이 아닙니다.

실제로 비즈니스 로직 검증은 처음 세 가지 정확도 차원을 통과한 오류의 약 60~80%를 포착합니다. 문자 수준 검사(숫자 "3"과 "8"이 모두 그럴듯함)와 필드 수준 검사(올바른 열에 있음) 및 구조 수준 검사(올바른 행에 있음)를 통과하는 차변 오독도 비즈니스 로직 검사에서는 실패합니다. 산술이 균형을 이루지 않기 때문입니다. 이것이 원장 추출 정확도를 단일 숫자로 설명해서는 안 되는 이유입니다: 네 번째 차원은 일반 정확도 벤치마크가 고려하지 않는 안전망 역할을 합니다.

통제 가능한 요소: 입력 품질, 열 설계, 검증 전략

원장이 각 정확도 차원에서 어느 위치에 놓일지는 네 가지 요소에 의해 결정되며, 이 모든 요소는 사용자가 통제할 수 있습니다.

스캔 품질. 300 DPI는 필기 인식이 '운'에서 '신뢰'로 전환되는 최소 임계값이며, 이는 Sparkco 2025 벤치마크에서 확인되었습니다. 200 DPI 미만에서는 픽셀 밀도가 부족하여 AI가 유사한 문자(3과 8, 4와 9)를 구분하지 못하며, 모델 품질과 관계없이 정확도가 급격히 떨어집니다. 휴대폰으로 촬영한 원장 페이지의 경우 원근 보정과 대비 향상을 적용하는 스캔 앱을 사용하세요. 일반 카메라 사진은 렌즈 왜곡, 불균일한 조명, 키스톤 효과로 인해 정확도가 10~15% 포인트 손실되며, 이는 모두 촬영 단계에서 해결 가능합니다.

열 이름 지정. 정의하는 추출 열은 AI의 검색 동작을 결정합니다. "차변"이라는 열은 AI에게 차변 의미를 가진 숫자 값을 찾도록 지시합니다. "열 3"이라는 열은 아무 정보도 제공하지 않으며, AI는 날짜, 설명, 금액 여부와 관계없이 세 번째 시각적 열에서 찾은 것을 배치합니다. 열은 회계적 의미에 따라 이름을 지정하세요: "날짜(YYYY/MM/DD)", "계정명", "차변 금액", "대변 금액", "잔액". 열 이름이 정확할수록 AI의 필드 수준 매칭이 더 정밀해집니다. 이 원칙은 사용자 정의 열 추출의 핵심이며, 좌표에 의존하는 템플릿 기반 접근 방식과 차별화됩니다.

일관성. 동일한 사람이 매월 동일한 원장 그리드를 작성한다면 열 템플릿을 한 번 정의하고 재사용하세요. AI의 구조 수준 정확도는 일관된 레이아웃에 반복적으로 노출될수록 향상됩니다. 다른 사람이 다른 그리드를 작성하거나 월별로 형식이 변경되는 경우 구조 수준 정확도가 저하될 것으로 예상하고 페이지당 검토 시간을 더 확보하세요.

검증 전략. 원장 추출의 실질적 정확도는 AI의 원시 출력만이 아닙니다. AI의 출력과 검증 프로세스의 조합입니다. 필드 수준 정확도 90%는 페이지당 3~4개 필드를 수정해야 함을 의미하며, 이는 관리 가능한 검토 작업입니다. 필드 수준 정확도 70%는 페이지당 9~10개 필드를 수정해야 하며, 이는 수동 입력에 가까운 노력이 필요합니다. 90% 정확도에 적합한 검증 전략(플래그가 지정된 불일치 항목 스캔, 몇 행만 표본 검사)은 70% 정확도에서는 작동하지 않습니다(사실상 데이터의 1/3을 다시 입력하는 것과 같습니다). 추출을 확정하기 전에 대표 페이지 하나를 처리하고 수정이 필요한 필드 수를 계산하세요. 그 숫자(벤치마크가 아닌)가 원장의 품질이 추출을 지원하는지, 아니면 먼저 입력 개선이 필요한지를 알려줍니다.

자주 묻는 질문

AI 추출이 의미 없을 정도로 장부 필체가 너무 지저분한 기준은 무엇인가요?

기준은 비교 대상에 따라 다릅니다. 수동 입력(필기 장부의 경우 필사 오류로 인해 3~5%의 자체 오류율 발생)과 비교할 경우, AI 추출은 수정된 필드 수준 정확도가 수동 정확도를 초과하는 한 유용합니다. 이는 일반적으로 AI의 원시 정확도가 필드 수준에서 75~80% 미만으로 떨어질 때까지 유지되며, 이는 심하게 손상된 문서(구겨진 종이에 희미한 연필, 겹치는 문자, 잉크 번짐)에 해당합니다. 일반적인 필기 장부(줄이 있는 종이에 볼펜, 필체 품질의 약간의 차이, 가끔 번짐)의 경우 필드 수준 정확도는 85~93%로, 30행 페이지당 2~5개 필드를 수정하면 됩니다. 이 수정 속도라면 AI 추출 후 검토가 완전 수동 입력보다 여전히 빠릅니다. 전체 비교는 장부 OCR과 수동 데이터 입력 비교에서 정량화되어 있습니다.

AI는 같은 장부 페이지에 혼합된 중국어와 영어를 처리할 수 있나요?

네, 단, 주의사항이 있습니다. AI는 인간 작업자가 겪는 인지 전환 비용 없이 두 문자 세트를 한 번에 읽습니다. 중국어로 작성된 계정 이름(科目名称)은 서양 숫자로 작성된 금액과 함께 추출됩니다. 경계 사례는 단일 셀에 두 스크립트가 모두 포함된 경우입니다. 예를 들어, "付款 to ABC Corp"와 같은 설명 필드에서 필드 내 혼합으로 인해 중국어와 영어 문자 사이의 경계에서 문자 수준 오류가 발생할 수 있습니다. 장부 작성 단계에서 혼합 스크립트 콘텐츠를 별도의 열(한 열에는 중국어 설명, 다른 열에는 영어 메모)로 분리하면 정확도가 향상됩니다. 전체 워크플로는 필기 장부를 Excel로 변환하는 가이드를 참조하세요.

동일한 장부의 여러 페이지에서 정확도는 어떻게 변하나요?

비전-언어 모델은 여러 페이지 문서에서 컨텍스트 드리프트라는 현상을 경험합니다. Suparse가 인용한 2025년 실무자 리뷰에 따르면 GPT-4.1은 첫 페이지에서 85%의 정확도를 달성했지만, 더 지저분한 두 번째 페이지에서는 75%로 떨어졌고, 여러 페이지 추출의 세 번째 페이지에서는 약 65%로 떨어졌습니다. 그러나 이 드리프트는 주로 모델이 실행 컨텍스트를 유지하려고 시도하는 내러티브 문서에 영향을 미칩니다. 각 행이 독립적이고 고정된 스키마를 따르는 장부와 같은 구조화된 문서의 경우, 추출이 내러티브를 따르는 것이 아니라 필드별로 이루어지기 때문에 드리프트가 덜 두드러집니다. 장부 페이지를 연속 문서가 아닌 개별적으로(배치당 한 페이지) 처리하면 여러 페이지 정확도 저하가 완화됩니다. 도구의 배치 처리 모드는 각 페이지를 공유 스키마 내에서 독립적인 추출 단위로 처리하여 이를 처리합니다.

시간이 지남에 따라 AI가 제 특정 필체에 더 적응하도록 훈련시킬 수 있나요?

전통적인 "훈련 데이터" 방식은 아닙니다. 즉, 레이블이 지정된 샘플을 업로드하여 모델을 미세 조정하는 방식이 아닙니다. 시간이 지남에 따라 개선되는 것은 사용자의 열 템플릿입니다. 몇 페이지를 처리한 후 어떤 필드에서 오류가 가장 많이 발생하는지 알게 되며, 열 이름을 더 구체적으로 수정할 수 있습니다. "잔액"이라는 열은 AI가 소계 필드와 혼동하는 경우가 있어 정확도가 85%에 그칠 수 있습니다. 이를 "기말 잔액(누계, 가장 오른쪽 열)"으로 변경하면 AI에 더 많은 맥락을 제공하여 일반적으로 필드 수준 정확도가 3~5% 포인트 향상됩니다. 모델 미세 조정이 아닌 이 템플릿 개선이 특정 원장 형식의 정확도 향상을 위한 실질적인 메커니즘입니다.

정확도의 하한선은 어느 정도인가요? AI 추출을 시도할 가치가 없는 기준은 무엇인가요?

다음 조건 중 하나라도 원장 페이지의 대부분에 해당한다면, AI 추출 결과는 수동 입력보다 더 많은 수정 작업이 필요할 수 있습니다. (1) 뒷면의 잉크가 번져 사람이 읽어도 문자가 모호한 경우, (2) 필체가 너무 연결되어 개별 문자를 구분할 수 없는 경우(펜을 떼지 않고 모든 문자가 이어지는 연속 필기체), (3) 격자선이 완전히 희미해져 열 사이의 시각적 구분이 없는 경우, (4) 페이지를 비스듬히 촬영하여 심각한 원근 왜곡이 있고 후처리가 없는 경우. 원장 책에서 몇 페이지만 이런 문제가 있다면 해당 페이지는 수동 입력으로 넘기고 나머지는 추출하세요. 전체 원장이 이런 상태라면, 추출 도구가 아니라 입력 자체가 한계 요인입니다.