AI는 필기 회계 장부를
얼마나 정확하게 읽을까?
2025년 AIMultiple의 벤치마크에 따르면 GPT-5는 필기체에서 95%의 정확도를 기록했고, Google Document AI는 동일한 샘플에서 63.4%를 기록했습니다. 두 수치 모두 깨끗한 단일 언어 필기 단락 100개로 구성된 데이터 세트에서 나온 결과로, 손으로 그린 격자선, 희미한 볼펜 기입, 한영 혼용 스크립트가 있는 회계 장부가 아닙니다. 벤치마크 수치와 실제 장부 페이지를 추출 도구에 입력했을 때 발생하는 결과 사이의 격차는 대부분의 정확도 주장이 시사하는 것보다 훨씬 큽니다.
핵심 요약
- 벤치마크에서 95% 필기 정확도라고 말할 때, 이는 깨끗한 단락에 대한 문자 인식을 측정한 것이지, 비뚤어진 손으로 그린 격자선 아래에서 추출된 각 숫자가 올바른 열에 들어갔는지를 측정한 것이 아닙니다.
- 실제 장부 페이지에서 필드 수준 정확도는 문자 수준 정확도보다 3~5포인트 낮습니다. 필드 수준 정확도는 문자 수준 정확도보다 3~5포인트 낮으며, 이는 30행짜리 페이지당 3~4개의 값이 잘못된 열에 들어가고 행 간 검증 없이는 아무도 이를 발견하지 못함을 의미합니다. 잘못된 열에 들어가고 행 간 검증 없이는 아무도 이를 발견하지 못합니다.
- ImageToTable.ai의 계산된 열은 각 행의 누적 잔액을 이전 행의 산술과 비교하여 문자 수준, 필드 수준, 구조 수준 검사를 통과한 오류의 60~80%를 단일 셀을 다시 읽지 않고도 포착합니다.
정확도는 하나의 숫자가 아닙니다
대부분의 손글씨 인식 벤치마크는 단일 정확도 백분율을 보고합니다. Suparse의 2026년 리뷰에 따르면 AIMultiple 벤치마크에서 GPT-5가 필기체에 대해 95%의 정확도를 보였다고 합니다. Extend AI는 LLM 기반 솔루션이 통제된 벤치마크에서 약 90%의 정확도를 달성하는 반면, 기존 OCR 도구는 손글씨에서 평균 64%의 정확도를 보인다고 언급합니다. 이는 유용한 비교이지만, 한 가지, 즉 독립된 텍스트 단락의 문자 수준 전사를 측정합니다.
손으로 쓴 장부(台账)는 AI가 전사할 단락을 제시하지 않습니다. 표를 제시합니다 — 손으로 그린 격자선, 눈대중으로 맞춘 열, 각 항목이 위 행에 의존하는 누적 행 — 우연히 손으로 쓰여진 것입니다. 장부에 대한 정확도 질문은 네 가지 차원이 있으며, 첫 번째 차원에서 강력한 점수를 받았다고 해서 나머지 세 가지 차원에서 유용한 결과가 보장되지는 않습니다.
네 가지 차원: (1) 문자 수준 — AI가 각 숫자와 문자를 올바르게 읽었는가? (2) 필드 수준 — 각 값을 올바른 필드(차변 vs 대변, N행 vs N+1행)에 할당했는가? (3) 구조 수준 — 손으로 그린 격자의 열 레이아웃을 이해했는가? (4) 비즈니스 로직 수준 — 추출된 데이터가 회계 규칙(기말 잔액 = 기초 잔액 + 차변 - 대변)을 충족하는가? 각 차원에는 고유한 정확도 범위가 있으며, 이를 개별적으로 이해하는 것이 장부가 AI 추출에 적합한지 여부를 결정합니다.
차원 1: 문자 수준 정확도 — 각 숫자와 문자 읽기
이것이 대부분의 벤치마크가 측정하는 것입니다. 2025년 arXiv 연구(2503.15195)는 IAM 손글씨 데이터베이스에서 비전-언어 모델을 벤치마킹했으며, GPT-4o의 경우 1.39%, GPT-4o-mini의 경우 1.74%의 낮은 문자 오류율(CER)을 발견했습니다. 이는 깨끗한 단일 언어 영어 손글씨에서 문자의 98.3–98.6%가 올바르게 읽혔음을 의미합니다. Claude Sonnet 3.5는 8.55% CER(91.5% 정확도)을 기록했으며, InternVL2-8B와 같은 오픈소스 모델은 24.74% CER(75.3% 정확도)을 기록했습니다.
이 수치는 최상의 경우(선명한 손글씨, 좋은 조명, 300 DPI 스캔)에 적용됩니다. 실제 장부 페이지는 범위를 더 넓히는 변수를 도입합니다.
| 입력 품질 | AI 문자 정확도 (영어 숫자) | AI 문자 정확도 (혼합 중문/영문) |
|---|---|---|
| 깨끗하고 간격이 좋은 인쇄체 스타일 손글씨, 300 DPI | 96–98% | 93–96% |
| 연속된 필기체, 일정한 필기 압력 | 90–94% | 85–90% |
| 급하게 쓴 손글씨, 가변적인 문자 크기 | 82–90% | 75–85% |
| 바랜 잉크, 누런 종이, 200 DPI 미만 | 70–80% | 60–75% |
영문 숫자와 한중 혼용 문장 간의 격차는 실재하지만 제대로 보고되지 않았습니다. 중국어 필기 인식은 특히 어렵습니다. GB18030-2005 표준은 27,533자의 한자를 정의하는 반면, 라틴 알파벳은 약 100개의 기호로 구성됩니다. Apple의 iOS 실시간 중국어 필기 인식 연구에 따르면 충분한 훈련 데이터가 있을 때 "문자 수가 증가해도 정확도는 천천히 저하될 뿐"이지만, 모델은 未(wèi, "아직")와 末(mò, "끝")처럼 한 획 차이로 구분되는 문자를 식별해야 합니다. 장부 맥락이 모호성을 해소하는 데 도움이 될 수 있지만 문자 수준의 과제는 여전히 남아 있습니다.
이 수치가 실제로 의미하는 바: 30행 6개 필드(180개 데이터 포인트, 약 800~1,200개 개별 문자)가 있는 장부 페이지에서 문자 수준 정확도 95%는 페이지당 40~60개의 오인식 문자를 발생시킵니다. 대부분은 필드 수준 오류로 이어지지 않습니다. 긴 설명 필드의 오인식 문자는 외관상의 문제일 뿐이지만, 차변 열의 오인식 숫자는 그렇지 않습니다.
차원 2: 필드 수준 정확도 — 올바른 열에 값 할당
여기서 정확도 논의가 일반적인 필기 벤치마크와 차별화됩니다. 문자 수준 정확도는 AI가 "1,350"을 올바르게 읽었는지 측정합니다. 필드 수준 정확도는 그 "1,350"이 "차변" 열이 아닌 "대변" 열이나 "잔액" 열에, 그리고 13행이나 15행이 아닌 14행에 할당되었는지 측정합니다.
명확한 격자선이 있는 인쇄된 표의 경우 필드 수준 정확도는 문자 수준 정확도와 거의 동일합니다. 경계가 명확하기 때문입니다. 손으로 그린 장부 표의 경우 그 격차가 벌어집니다. AI는 불완전한 단서로부터 열 경계를 추론해야 합니다:
- 완벽하게 직선이 아닌 손으로 그린 세로선. 자 미끄러짐이나 고르지 못한 손놀림으로 페이지를 가로질러 약간 기울어진 열 구분선이 생깁니다. 20cm 페이지 너비에서 1도 기울어지면 가장 오른쪽 열 경계가 3.5mm 이동합니다. 이는 필기 숫자 옆이 아닌 숫자를 관통할 만한 거리입니다.
- 측정이 아닌 눈대중으로 정렬된 열. 손으로 장부 격자를 그리는 회계사는 열 간격을 대략적으로, 정확하지 않게 배치합니다. "날짜" 열이 1페이지에서는 2.5cm 너비였다가 50페이지에서는 2.8cm 너비가 될 수 있습니다. 전통적인 템플릿 기반 OCR은 고정 좌표를 기대하기 때문에 여기서 실패합니다. 필드 의미로 읽는 AI — 짧은 날짜 형식 문자열(YY/MM/DD)이 정확한 수평 위치와 관계없이 날짜 열에 속한다는 것을 인식 — 는 페이지별 재조정 없이 이러한 변동을 처리합니다.
- 간격이 최소화된 빽빽한 행. 40개의 좁은 행으로 빽빽이 채워진 장부 페이지는 행당 5~6mm만 남깁니다. 한 행의 필기 하강부(예: "g"나 "y"의 꼬리)가 아래 행의 상승부와 겹칠 때, AI는 N행이 끝나고 N+1행이 시작되는 지점을 결정해야 합니다. 이 행 경계 모호성은 장부 추출에서 필드 수준 오류의 가장 큰 단일 원인입니다.
비교적 일관된 손으로 그린 열과 표준 행 간격을 가진 장부 페이지의 경우, 필드 수준 정확도는 문자 수준 정확도보다 약 3~5%포인트 낮습니다. 문자 정확도 93%에서는 88~90%의 필드 정확도를 기대할 수 있습니다. 문자 정확도 85%(급하게 쓴 필기체)에서는 80~82%의 필드 정확도를 기대할 수 있습니다. 실제적 의미: 30행 페이지에서 수동 수정이 필요한 3~4개 필드를 예상해야 합니다. AI가 필기를 잘못 읽어서가 아니라 올바른 값을 잘못된 위치에 배치했기 때문입니다.
사용자 정의 열 추출의 장점은 추출 전에 "차변 금액", "계정명" 같은 필드명을 정의함으로써 AI에 의미적 대상을 제공한다는 점입니다. AI는 격자선만으로 열 레이아웃을 추론하려고 하지 않고, "행 구조에서 차변 금액처럼 보이는 것"을 찾아 올바른 출력 열에 배치합니다. 템플릿 없는 추출 가이드에 설명된 대로, 이 의미적 접근 방식은 어떤 전처리 단계보다 필드 수준 오류를 줄여줍니다.
차원 3: 구조 수준 정확도 — 손으로 그린 표 이해하기
이 차원은 일반적인 필기체 벤치마크에는 존재하지 않습니다. AI가 표 구조(행, 열, 헤더 간의 관계와 원장을 정의하는 누적 논리)를 올바르게 해석하는지 측정합니다.
최신 AI 모델은 Sparkco 2025 벤치마크 분석에서 "레이아웃 인식 분석"으로 설명하는 방식, 즉 "텍스트와 표, 열을 포함한 복잡한 레이아웃을 모두 이해하는" LayoutLM 같은 멀티모달 아키텍처를 사용합니다. 원장에서 이는 다음을 인식함을 의미합니다:
- 12행의 기말 잔액 = 11행의 기말 잔액 + 12행의 차변 – 12행의 대변
- "계정명" 열은 일반적으로 숫자가 아닌 텍스트를 포함하므로, 해당 열의 "1,350"은 유효한 항목이 아니라 잘못 할당된 것일 가능성이 높음
- "科目名称"(계정명) 같은 열 헤더는 중국어 텍스트 필드를 설명하며, 그 아래 배치된 값은 해당 의미적 기대와 일치하는지 평가되어야 함
손으로 그린 원장의 구조 수준 정확도는 세 가지 품질 등급으로 나뉩니다:
일관된 격자, 인쇄체 또는 깔끔한 손글씨: 행의 90~95%가 올바르게 구조화됨 — 즉, 열이 올바르게 매핑되고, 행 경계가 식별되며, 누적 관계가 유지됩니다. 이는 가장 일반적인 경우입니다: 자를 사용해 매달 같은 레이아웃으로 열을 그리는 회계사의 경우입니다.
일관되지 않은 격자, 가변적인 손으로 그린 선: 80~90%. AI는 전반적인 레이아웃을 이해하지만 페이지당 1~2개 행을 잘못 할당할 수 있습니다 — 두 개의 좁은 행을 하나로 병합하거나 넓은 행을 둘로 분할합니다. 이는 페이지마다 열 너비가 눈에 띄게 다르거나, 격자선이 너무 희미해 AI가 이를 내용이 아닌 구조로 처리하는 원장에서 발생합니다.
격자가 없거나 심하게 손상된 격자: 70~80%. 원장이 수평선만 사용하거나(세로 열 구분선 없음), 오래된 종이에서 격자가 거의 보이지 않을 정도로 퇴색된 경우, AI는 콘텐츠 패턴만으로 열 구조를 추론해야 합니다 — 짧은 날짜 문자열 뒤에 더 긴 설명이 오고, 그 뒤에 숫자 값이 오는 것을 인식합니다. 이는 가장 어려운 경우이며 가장 많은 구조적 오류를 발생시킵니다.
일반적인 벤치마크가 놓치는 중요한 점: 구조적 오류는 문자 오류보다 발견하기 쉽습니다. AI가 하나의 행을 둘로 분할하면 출력에 30개가 있어야 할 행이 31개가 됩니다 — 명백한 위험 신호입니다. 차변 금액에서 "3"을 "8"로 잘못 읽으면 오류는 한 줄씩 확인하지 않고는 보이지 않습니다. 구조 오류는 눈에 띄고, 문자 오류는 조용합니다. 이러한 비대칭성은 검증 전략에 실질적인 시사점을 줍니다.
차원 4: 비즈니스 로직 수준 정확도 — 원장이 균형을 이루는가?
이 차원은 원장과 거의 그 외의 것에는 존재하지 않습니다. AI가 필체를 올바르게 읽었는지 측정하지 않습니다. 추출된 데이터가 유효한 원장을 정의하는 회계 규칙을 충족하는지 측정하며, 이를 통해 이전 세 차원의 오류를 동시에 포착합니다.
핵심 규칙: 기말 잔액 = 이전 행의 기말 잔액 + 현재 행의 차변 – 현재 행의 대변입니다.
회계 용어로 이는 누적 잔액 공식으로, 원장을 독립적인 항목 목록이 아닌 원장으로 만드는 산술입니다. FASB ASC 105에 따라 관리되는 GAAP 준수 부기는 모든 총계정원장 계정이 모든 항목에 걸쳐 이 누적 무결성을 유지하도록 요구합니다. 잔액이 계산되지 않는 원장은 부정확할 뿐만 아니라 불가능합니다.
비즈니스 로직 정확도 검사는 두 방향으로 작동합니다:
- 순방향 검증: 각 행에 대해 추출된 차변 및 대변 값에서 예상 기말 잔액을 계산합니다. 추출된 잔액과 비교합니다. 일치하면 해당 행은 수동 입력이나 표준 OCR이 제공하지 않는 이중 확인을 통과합니다. 차변/대변 값과 잔액 값이 독립적으로 읽혔고, 산술적 관계가 읽기를 확인하거나 거부하기 때문입니다.
- 역방향 검증: 47행에서 불일치가 발견되면 역추적합니다: 46행의 잔액이 올바른가? 45행은? 이는 발원 행(계산된 잔액이 추출된 잔액과 달라지는 첫 번째 행)을 분리하고, 오류가 해당 특정 행의 차변 오독, 대변 오독, 또는 잔액 오독인지 밝힙니다.
도구의 계산된 열 기능을 사용하면 이 검증이 자동으로 이루어집니다: "잔액 확인"이라는 열을 규칙 이전 잔액 + 차변 - 대변으로 정의하면, AI가 추출 중 모든 행에 대해 예상 잔액을 계산하여 불일치를 원천에서 표시합니다. 이는 원장 추출에 존재하는 무료 정확도 개선에 가장 가까운 것이며, 전적으로 원장 구조의 기능이지 AI 모델의 필체 기술이 아닙니다.
실제로 비즈니스 로직 검증은 처음 세 가지 정확도 차원을 통과한 오류의 약 60~80%를 포착합니다. 문자 수준 검사(숫자 "3"과 "8"이 모두 그럴듯함)와 필드 수준 검사(올바른 열에 있음) 및 구조 수준 검사(올바른 행에 있음)를 통과하는 차변 오독도 비즈니스 로직 검사에서는 실패합니다. 산술이 균형을 이루지 않기 때문입니다. 이것이 원장 추출 정확도를 단일 숫자로 설명해서는 안 되는 이유입니다: 네 번째 차원은 일반 정확도 벤치마크가 고려하지 않는 안전망 역할을 합니다.
통제 가능한 요소: 입력 품질, 열 설계, 검증 전략
원장이 각 정확도 차원에서 어느 위치에 놓일지는 네 가지 요소에 의해 결정되며, 이 모든 요소는 사용자가 통제할 수 있습니다.
스캔 품질. 300 DPI는 필기 인식이 '운'에서 '신뢰'로 전환되는 최소 기준이며, 이는 Sparkco 2025 벤치마크에서 확인되었습니다. 200 DPI 미만에서는 픽셀 밀도가 부족하여 AI가 유사한 문자(3과 8, 4와 9)를 구분하지 못하며, 모델 품질과 관계없이 정확도가 급격히 떨어집니다. 휴대폰으로 촬영한 원장 페이지의 경우 원근 보정과 대비 향상을 적용하는 스캔 앱을 사용하세요. 일반 카메라 사진은 렌즈 왜곡, 불균일한 조명, 키스톤 효과로 인해 정확도가 10~15% 포인트 손실되며, 이는 촬영 단계에서 모두 해결 가능합니다.
열 이름 지정. 정의하는 추출 열은 AI의 검색 동작을 결정합니다. "차변"이라는 열은 AI에게 차변 의미의 숫자 값을 찾도록 지시합니다. "열 3"이라는 열은 아무 정보도 제공하지 않으며, AI는 날짜, 설명, 금액 여부와 관계없이 세 번째 시각적 열에서 찾은 모든 것을 배치합니다. 열은 회계적 의미에 따라 "날짜(YYYY/MM/DD)", "계정명", "차변 금액", "대변 금액", "잔액"과 같이 이름을 지정하세요. 열 이름이 정확할수록 AI의 필드 수준 매칭이 더 정밀해집니다. 이 원칙은 사용자 정의 열 추출의 핵심이며, 좌표에 의존하는 템플릿 기반 접근 방식과 차별화됩니다.
일관성. 동일한 사람이 매월 동일한 원장 그리드를 작성한다면 열 템플릿을 한 번 정의하고 재사용하세요. AI의 구조 수준 정확도는 일관된 레이아웃에 반복적으로 노출될수록 향상됩니다. 다른 사람이 다른 그리드를 작성하거나 형식이 월별로 변경되는 경우 구조 수준 정확도가 저하될 것으로 예상하고 페이지당 검토 시간을 더 확보하세요.
검증 전략. 원장 추출의 실질적 정확도는 AI의 원시 출력만이 아닙니다. AI 출력과 사용자의 검증 프로세스를 합친 것입니다. 필드 수준 정확도 90%는 페이지당 3~4개 필드 수정으로 관리 가능한 검토 작업입니다. 70% 필드 수준 정확도는 페이지당 9~10개 필드 수정으로 수동 입력에 가까운 노력이 필요합니다. 90% 정확도에서 작동하는 검증 전략(플래그가 지정된 불일치 항목 스캔, 몇 행 샘플 확인)은 70% 정확도에서는 작동하지 않습니다(사실상 데이터의 3분의 1을 다시 입력하는 것과 같습니다). 추출을 진행하기 전에 대표 페이지 하나를 처리하고 수정이 필요한 필드 수를 계산하세요. 그 숫자(어떤 벤치마크도 아닌)가 원장의 품질이 추출을 지원하는지, 아니면 먼저 입력 개선이 필요한지 알려줍니다.
자주 묻는 질문
AI 추출이 의미 없을 정도로 장부 필체가 너무 지저분한 기준은 무엇인가요?
기준은 비교 대상에 따라 다릅니다. 수동 입력(필기 장부의 경우 필사 오류로 인해 3~5%의 자체 오류율 발생)과 비교한다면, AI 추출은 수정된 필드 수준 정확도가 수동 정확도를 초과하는 한 유용합니다. 이는 일반적으로 AI의 원시 정확도가 필드 수준에서 75~80% 미만으로 떨어질 때까지 유지되며, 이는 심하게 훼손된 문서(구겨진 종이에 희미한 연필, 겹치는 문자, 잉크 번짐)에 해당합니다. 일반적인 필기 장부(볼펜, 줄이 있는 종이, 필체 품질의 일부 편차, 가끔 번짐)의 경우 필드 수준 정확도는 85~93%로, 30행 페이지당 2~5개 필드를 수정하면 됩니다. 이 수정 속도에서는 AI 추출 후 검토가 완전 수동 입력보다 여전히 빠릅니다. 전체 비교는 장부 OCR과 수동 데이터 입력 비교에서 정량화되어 있습니다.
AI는 동일한 장부 페이지에서 중국어와 영어가 혼합된 경우를 처리할 수 있나요?
네, 단, 주의사항이 있습니다. AI는 인간 작업자가 겪는 인지 전환 비용 없이 두 문자 체계를 한 번에 읽습니다. 중국어로 작성된 계정 이름(科目名称)은 서양 숫자로 작성된 금액과 함께 추출됩니다. 경계 사례는 단일 셀에 두 문자가 모두 포함된 경우입니다. 예를 들어, "付款 to ABC Corp"와 같은 설명 필드에서 중국어와 영어 문자 사이의 경계에서 문자 수준 오류가 발생할 수 있습니다. 장부 작성 단계에서 혼합 문자 콘텐츠를 별도의 열(중국어 설명은 한 열, 영어 메모는 다른 열)로 분리하면 정확도가 향상됩니다. 전체 워크플로는 필기 장부를 Excel로 변환하는 가이드를 참조하세요.
동일한 장부의 여러 페이지에서 정확도는 어떻게 변하나요?
비전-언어 모델은 여러 페이지 문서에서 컨텍스트 드리프트 현상을 경험합니다. Suparse가 인용한 2025년 실무자 리뷰에 따르면 GPT-4.1은 첫 페이지에서 85%의 정확도를 보였고, 지저분한 두 번째 페이지에서는 75%로 떨어졌으며, 여러 페이지 추출의 세 번째 페이지에서는 약 65%까지 떨어졌습니다. 그러나 이 드리프트는 주로 모델이 실행 컨텍스트를 유지하려고 시도하는 서술형 문서에 영향을 미칩니다. 각 행이 독립적이고 고정된 스키마를 따르는 장부와 같은 구조화된 문서의 경우, 추출이 서술 추적이 아닌 필드별로 이루어지기 때문에 드리프트가 덜 두드러집니다. 장부 페이지를 연속 문서가 아닌 개별적으로(배치당 한 페이지) 처리하면 여러 페이지 정확도 저하가 완화됩니다. 도구의 배치 처리 모드는 각 페이지를 공유 스키마 내에서 독립적인 추출 단위로 처리하여 이를 처리합니다.
시간이 지남에 따라 AI가 제 특정 필체에 더 적응하도록 훈련시킬 수 있나요?
전통적인 "훈련 데이터" 방식은 아닙니다. 즉, 레이블이 지정된 샘플을 업로드하여 모델을 미세 조정하는 방식이 아닙니다. 시간이 지남에 따라 개선되는 것은 사용자의 열 템플릿입니다. 몇 페이지를 처리한 후 어떤 필드에서 오류가 가장 많이 발생하는지 알게 되며, 열 이름을 더 구체적으로 수정할 수 있습니다. "잔액"이라는 열은 AI가 소계 필드와 혼동하는 경우가 있어 정확도가 85%에 그칠 수 있습니다. 이를 "기말 잔액(누계, 가장 오른쪽 열)"으로 변경하면 AI에 더 많은 맥락을 제공하여 일반적으로 필드 수준 정확도가 3~5% 포인트 향상됩니다. 모델 미세 조정이 아닌 이 템플릿 개선이 특정 원장 형식의 정확도 향상을 위한 실질적인 메커니즘입니다.
정확도의 하한선은 어느 정도인가요? AI 추출을 시도할 가치가 없는 기준은 무엇인가요?
다음 조건 중 하나라도 원장 페이지의 대부분에 해당한다면, AI 추출 결과는 수동 입력보다 더 많은 수정 작업이 필요할 수 있습니다. (1) 뒷면의 잉크가 번져 사람이 읽어도 문자가 모호한 경우, (2) 필체가 너무 연결되어 개별 문자를 구분할 수 없는 경우(펜을 떼지 않고 모든 문자가 이어지는 연속 필기체), (3) 격자선이 완전히 희미해져 열 사이의 시각적 구분이 없는 경우, (4) 페이지를 비스듬히 촬영하여 심각한 원근 왜곡이 있고 후처리가 없는 경우. 원장 책에서 몇 페이지만 이런 문제가 있다면 해당 페이지는 수동 입력으로 넘기고 나머지는 추출하세요. 전체 원장이 이런 상태라면, 추출 도구가 아니라 입력 자체가 한계 요인입니다.