데이터 추출은절반의 작업일 뿐입니다

문서 추출 업체의 웹사이트에 5분만 투자해도 같은 이야기를 듣게 됩니다: PDF를 업로드하면 스프레드시트가 나온다는 이야기죠. 그 서사는 구조화된 데이터가 Excel에 나타나는 순간 끝납니다. 하지만 실제로 송장 처리를 해본 사람이라면 숫자를 표에 넣는 것이 쉬운 부분이라는 것을 압니다. 오후 시간을 잡아먹고, 석 달 뒤 조정 과정에서 표면화되는 오류를 만드는 작업은 추출이 끝난 에 발생합니다. 바로 수식 입력줄에서 일어납니다.

재무 계산기와 데이터 열이 있는 스프레드시트 클로즈업, 추출 후 수동 수식 작업을 보여줌

핵심 요약

  1. 월 200건의 송장을 처리하는 중견 기업의 AP 담당자는 추출 후 수식 작업(라인 합계, 소계, 세금 확인)에 26시간을 소비하며, 이에 따른 인건비는 월 600달러로 예산에 잡히지 않습니다.
  2. AI 추출 오류율은 1% 미만이지만, 수식 오류율(SUM 범위 불일치, 복사-붙여넣기 실수, 송장이 한 줄 더 길어질 때 조용히 제외되는 행)은 측정하는 사람이 없어 공개된 벤치마크가 없습니다.
  3. ImageToTable.ai의 계산된 열은 추출 중에 라인 합계를 검증하고, 소계를 조정하며, 세액을 확인합니다. 따라서 스프레드시트는 검증이 완료된 상태로 도착하며, 검토자는 원시 숫자가 아닌 답변부터 시작합니다.

문서 추출이 실제로 제공하는 것과 제공하지 않는 것

설명은 간단합니다. 40줄짜리 인보이스가 PDF로 도착합니다. 업로드하면 AI가 각 청구 항목(설명, 수량, 단가, 라인 합계)을 읽어 열이 이미 레이블 지정된 스프레드시트를 출력합니다. 마케팅 용어로는 '엔드투엔드 자동화'입니다. 회계 용어로는 시작 신호탄입니다.

추출 후 스프레드시트에 실제로 포함된 것은 페이지에 표시된 그대로의 원시 값이기 때문입니다. 수량 열에는 숫자가, 단가 열에는 숫자가, 라인 합계 열에는 숫자가 있습니다. 하지만 AI도, 추출 엔진도 수량 × 단가가 인보이스에 인쇄된 라인 합계와 실제로 일치하는지 검증하지 않았습니다. 20개 라인 합계를 모두 더해 마지막 페이지의 소계와 비교하지도 않았습니다. 소계에 적용된 세율이 공급업체가 기재한 세금 금액을 생성하는지 확인하거나, 숫자가 일치하지 않을 때 인보이스를 '검토 필요'로 표시하지도 않았습니다.

추출 도구는 데이터를 제공했습니다. 검증된 데이터를 제공한 것은 아닙니다. 그리고 이 두 가지 사이의 간극, 즉 '숫자가 Excel에 있다'와 '숫자가 정확하고 원장에 반영될 준비가 되었다' 사이의 간극에서 실제 시간이 사라집니다.

추출은 비정형 문서를 정형 데이터로 변환합니다. 이는 형식 변환, 즉 해결된 문제입니다. 대부분의 팀에게 여전히 해결되지 않은 과제는 해당 데이터에 대한 계산입니다: 라인 합계, 행 간 집계, 조건부 플래그, 차이 감지. 이는 추출 작업이 아닌 추출 후 작업이며 거의 전적으로 수동으로 이루어집니다.

수동 데이터 입력보다 비용이 더 많이 드는 스프레드시트 수식

인보이스 데이터 추출 도구는 '숫자 입력' 단계를 페이지당 3분에서 약 5-10초로 단축했습니다. 이는 확실한 개선입니다. 하지만 PDF 도착부터 '게시 준비 완료'까지의 전체 워크플로우에 스톱워치를 대면, 대부분의 도구 비교에서 포착하지 못하는 방식으로 시간 분포가 바뀝니다.

AI 추출 후 일반적인 인보이스 처리 워크플로우에는 최소 네 가지 범주의 수식 작업이 포함됩니다. 각각은 개별적으로 작습니다. 여기서 열 하나, 저기서 SUM 하나. 하지만 이들은 collectively 반복적인 스프레드시트 조립 라인을 형성하며, 아무도 예산에 포함시키지 않습니다:

  • 라인 합계 검증. 인보이스의 각 행에 대해 E열에 =C2*D2 (수량 × 단가)를 입력하고, F열에 인쇄된 라인 합계와 비교해야 합니다. 인보이스 한 장에 15개 항목이 있다면, 곱셈 수식 15개와 비교 수식 15개가 필요합니다. 월 200건의 인보이스를 처리한다면, 생성, 드래그, 점검해야 할 수식 셀이 총 6,000개에 달합니다.
  • 소계 검증. 개별 라인을 확인한 후, 계산된 라인 합계를 합산하여 인쇄된 소계와 비교합니다. 그런 다음 세율(관할 구역이나 항목별로 다를 수 있음 — 일부는 과세, 일부는 비과세)을 적용하여 인쇄된 세액과 비교합니다. 마지막으로 소계와 세금을 합산하여 인보이스 총액과 비교합니다. 세율이 분할된 여러 페이지 인보이스의 경우, 이는 단순한 SUM 수식이 아닙니다. 상위 값이 하나라도 틀리면 전체가 깨지는 상호 의존적인 계산 체인입니다.
  • 조건부 플래그. 인보이스 총액이 구매 주문 금액을 초과합니까? 지급 기한이 7일 이내입니까(긴급 승인 플래그)? 공급업체가 선호 공급업체 목록에 있습니까? 이 각각은 조건부 수식입니다 — =IF(F2>G2,"예산 초과","") — 누군가가 작성하고, 서식을 지정하고, 모든 행에 드래그해야 합니다.
  • 표준화 수식. 날짜는 생각할 수 있는 모든 형식으로 들어옵니다: 06/15/2026, 15-Jun-2026, 20260615. 통화 금액은 공급업체 국가에 따라 소수점 구분자로 쉼표와 마침표가 혼용됩니다. 누군가 =DATEVALUE() 래퍼와 =SUBSTITUTE() 체인을 작성하여 회계 시스템에 입력하기 전에 모든 것을 정규화해야 합니다.

이 작업 중 어느 것도 데이터 추출이 아닙니다. AI가 이미 올바른 숫자를 추출했습니다. 하지만 이러한 계산이 완료될 때까지 숫자는 사용할 수 없습니다. 그리고 대부분의 조직에서 계산 작업량은 눈에 보이지 않습니다. 엑셀에서, 회의 사이의 15분짜리 짬을 내어, 직무 설명에 "스프레드시트 수식 기술자"가 포함되지 않은 사람들에 의해 이루어집니다. 작업은 완료되지만, 시간이 얼마나 걸리는지 추적하는 사람은 아무도 없습니다. 그리고 그것이 필요한지 묻는 사람도 없습니다.

중간 규모 기업의 AP 담당 직원이 월 200건의 인보이스를 처리하고, 인보이스당 평균 8분을 추출 후 수식 작업(검증 열 작성, 수식 드래그, 소계 검증)에 소비한다면, 이는 데이터를 추출했지만 아무것도 계산하지 않는 작업에 월 26시간을 사용하는 셈입니다. BLS 기준 장부 담당 사무원의 중간 임금 $23.33/시간으로 계산하면, 수식 작성 인건비만 월 $600 이상입니다. 3명으로 구성된 팀의 경우 월 $1,800, 연간 $21,600을 추출 중에 계산이 이루어졌다면 필요 없었을 엑셀 수식에 지출하는 것입니다.

추출 도구는 팀이 페이지당 3분을 절약하게 해주었습니다. 하지만 뒤따른 수식 작업(라인 합계, 교차 검증, 조건부 열)은 도구가 전혀 건드리지 않은 추가 8분을 소모했습니다. 실제 병목 현상은 사라지지 않았습니다. 단지 더 눈에 띄게 되었을 뿐입니다.

문서 추출 업계가 추출을 완료 지점으로 보는 이유

시장을 지배하는 도구들 — 템플릿 기반 OCR, 머신러닝 분류기, 대형 비전 모델 — 은 모두 단일 엔지니어링 문제를 해결하기 위해 만들어졌습니다: "문서 이미지가 주어졌을 때, 구조화된 텍스트를 출력하라." 이것은 수십 년이 걸려서야 제대로 풀린 어려운 문제입니다. 이러한 도구를 만드는 팀들은 당연히 자신들이 해결 방법을 아는 문제를 중심으로 조직됩니다.

하지만 엔지니어가 생각하는 "완료"의 정의 — "텍스트가 데이터베이스 행에 들어갔다" — 는 회계사가 생각하는 "완료"의 정의 — "숫자가 검증, 계산되어 총계정원장에 입력될 준비가 되었다" — 와 일치하지 않습니다. 추출 결과물은 데이터 산출물입니다. 회계 결과물은 재무 산출물입니다. 하나에서 다른 하나로의 변환에는 계산이 필요하며, 추출 업계는 그 계산을 대부분 사용자에게 맡겨 왔습니다.

이것은 개별 도구의 실패가 아닙니다. 문제가 정의된 방식 자체의 구조적 결함입니다. 소프트웨어 업계는 문서 처리를 바라보며 "OCR을 개선해야 한다"고 생각했습니다. 그래서 더 나은 OCR을 만들었습니다. 그다음에는 "형식이 예측 불가능하다"는 것을 보고 레이아웃에 구애받지 않는 AI를 만들었습니다. 각 반복은 추출을 더 빠르고 정확하게 만들었습니다. 하지만 각 반복은 동시에 추출 후의 수식 작업 부재를 더욱 두드러지게 만들었습니다. 추출에 10초가 걸리고 수식 작업에 여전히 8분이 걸린다면, 추출 속도는 더 이상 핵심이 아닙니다. 수식 격차가 핵심이 됩니다.

이 격차를 가장 잘 보여주는 증거는 AP 팀이 실제로 추출 도구를 사용하는 방식입니다. 그들은 추출합니다. 엑셀로 내보냅니다. 그런 다음 열을 추가합니다. 추출이 데이터를 놓쳤기 때문이 아니라, 도구가 계산을 하지 않기 때문입니다. 수량 × 단가 열을 추가합니다. 차이 열을 추가합니다. 승인 플래그 열을 추가합니다. 표준화된 날짜 열을 추가합니다. 회계 시스템으로 보내는 스프레드시트는 추출 도구가 생성한 열보다 두 배나 많은 열을 가지고 있습니다. 절반은 추출 결과물입니다. 나머지 절반은 화요일 오후 4시에 누군가가 작성한 수식입니다.

실제 업무에서의 계산 차이: 송장 합계가 일치하지 않을 때

추출 후 수식을 사용하는 방식이 단순히 번거로울 뿐만 아니라 구조적으로 위험한 이유를 이해하려면, AP에서 가장 흔한 조정 실패 사례인 송장 합계 불일치를 생각해 보십시오.

공급업체가 12개 품목이 포함된 송장을 보냅니다. 추출 도구는 모든 필드를 정확하게 캡처합니다. 12개의 설명, 12개의 수량, 12개의 단가, 12개의 품목 합계, 1개의 소계, 1개의 세액, 1개의 송장 합계입니다. 모든 숫자는 원본 문서와 일치합니다. 하지만 추출된 12개 품목 합계를 모두 더하면 $3,847입니다. 송장에 인쇄된 소계는 $3,812입니다. 차이는 $35입니다.

오류는 추출 과정에 있는 것이 아닙니다. 공급업체 송장 자체에 있습니다. 품목 가격이 잘못되었거나, 할인이 일관되게 적용되지 않았거나, 반올림 처리로 인해 차이가 발생한 것입니다. 그러나 추출 도구에는 이를 감지할 메커니즘이 없습니다. 도구는 검증 없이 공급업체의 숫자를 충실히 재현했을 뿐입니다. 오류 감지는 엑셀에서 누군가 =SUM(F2:F13) 수식을 작성하고 이를 F15 셀과 비교할 때 이루어집니다. 아무도 그 수식을 작성하지 않거나, 수식이 올바르게 작성되었더라도 여러 페이지로 구성된 송장의 첫 페이지에만 적용된다면, $35의 차이는 그대로 남게 됩니다. 이 차이는 총계정원장에 입력되고, 3개월 후 조정 항목이 됩니다. 그 시점에서 원본 송장을 찾고 품목별 계산을 확인하는 데 드는 인건비는 $35 그 자체보다 더 큽니다.

이 시나리오는 드문 경우가 아닙니다. 이는 계산 기능이 포함되지 않은 모든 추출 워크플로우의 기본 상태입니다. 모든 송장은 누군가가 스프레드시트에서 수동으로 설정하고 해결해야 하는 수학 문제가 됩니다. 소량 처리 시에는 계산이 관리 가능합니다. 하지만 월 200건의 송장이 되면, 계산은 공식적으로 담당자가 없는 풀타임 업무가 됩니다. 월 500건이 되면 계산은 위험이 됩니다. 오류의 95%는 발견되지만 나머지 5%는 발견되지 않으며, 이 5%가 바로 중요한 오류이기 때문입니다.

표준 문서의 인쇄된 텍스트에 대한 최신 AI 도구의 추출 오류율은 1% 미만입니다. 반면, 추출 후 계산 오류율 — 수식 오류, 행 누락, SUM 범위 불일치 — 에 대한 공개된 벤치마크는 아무도 측정하지 않기 때문에 존재하지 않습니다. 하지만 모든 AP 관리자는 이 비율이 1%보다 높다는 것을 알고 있습니다.

추출 단계에서 계산 수행하기

문제가 추출 시 원시 값만 얻고 이후 별도 도구에서 계산해야 하는 것이라면, 논리적 해결책은 두 단계를 하나로 합치는 것입니다. "먼저 추출하고, 나중에 엑셀에서 계산"하는 대신, AI가 문서를 읽고 출력 테이블을 작성하는 순간에 계산이 이루어집니다.

이것이 ImageToTable.ai가 계산 열이라고 부르는 기능의 작동 원리입니다. 문서에서 추출할 열을 정의할 때 페이지에 존재하는 필드로만 제한할 필요가 없습니다. 계산을 통해 다른 추출 필드에서 값을 도출하는 열을 정의할 수 있습니다. AI가 문서를 읽고, 원본 값을 추출하며, 계산을 수행하고, 결과를 출력에 직접 기록합니다. 모든 과정이 한 번에 이루어집니다. 별도의 스프레드시트, 수식 입력줄, 셀 끌기가 필요 없습니다.

송장의 경우 실질적인 적용은 즉각적입니다:

  • 라인 합계 검증. 계산 열 계산된 라인 합계 (수량 × 단가)를 정의합니다. 송장의 각 라인 항목에 대해 AI가 수량과 단가를 곱해 결과를 출력합니다. 출력된 라인 합계 열과 비교하면 — 잊어버린 수식이 아닌 출력에서 바로 불일치를 확인할 수 있습니다.
  • 소계 조정. 추출된 모든 라인 합계를 합산하고 그 결과를 인쇄된 소계와 비교하는 계산 열을 정의합니다. 출력은 단순한 숫자가 아닌 조정 결과입니다: "라인 합계: $3,847. 인쇄된 소계: $3,812. 차이: $35." 이전에 엑셀 수식 체인이 필요했던 계산이 추출 자체에 내장됩니다.
  • 세금 검증. 고정 세율 매개변수를 사용하여 계산 열 예상 세금 (소계 × 0.0825)을 정의합니다. 인쇄된 세금 금액과 비교합니다. 공급업체가 잘못된 세율을 적용했다면 데이터가 엑셀에 도달하기 전에 차이가 표시됩니다.
  • 예산 플래그. 송장 총액이 기준 값을 초과하는지 확인하는 계산 열을 정의합니다: 예산 확인 (송장 총액 > 구매 주문 금액). 출력은 "예산 초과" 또는 "OK"입니다 — 추출 중에 생성되는 조건부 플래그로, 이후에 추가되는 것이 아닙니다.

계산 열이 검증의 필요성을 없애는 것은 아닙니다. 검증을 위해 계산할 필요를 없애는 것입니다. AI가 산술을 수행하고, AP 담당자가 결과를 검토합니다. 이 차이가 중요한 이유는 계산은 기계적인 작업이고 — 대규모로 수동 수행 시 오류가 발생하기 쉬우며 — 검토는 판단 작업으로 인간이 더 잘하기 때문입니다. 계산을 상류로 이동시킨다는 것은 인간이 송장당 8분을 기계가 할 수 없는 부분, 즉 차이가 의미하는 바와 취해야 할 조치를 결정하는 데 사용한다는 의미입니다.

이 기능은 두 가지 형태로 제공됩니다. 빠른 사용을 위해 열 이름에 직접 계산식을 작성할 수 있습니다 — 라인 합계 (수량 × 단가) — 그러면 AI가 자연어로부터 로직을 분석합니다. 더 복잡하고 여러 단계의 파생이 필요한 경우, 로그인한 사용자는 구조화된 JSON 규칙 형식으로 계산을 정의하여 열 이름을 깔끔하게 유지하면서 계산 로직을 정확하게 표현할 수 있습니다. 두 접근 방식 모두 동일한 결과를 생성합니다: 추출 중에 계산된 값이 포함된 출력 테이블의 열입니다. 대량으로 송장을 처리하는 팀의 경우, 계산 열을 사용한 배치 송장 데이터 추출은 수 시간의 사후 처리 수식 작업을 업로드가 완료되기 전에 끝내는 것으로 바꿔줍니다.

JPG/PNG/PDF AI 추출 + 계산

파일은 안전하게 처리되며 저장되지 않습니다.

자주 묻는 질문

추출 후 수식 작업에 실제로 얼마나 시간이 걸리나요?

월 200건의 송장을 처리하는 중견 시장 AP팀의 경우, 추출 후 계산(라인 합계 확인, 소계 조정, 조건부 플래그, 날짜 표준화)은 송장당 평균 8분의 수식 작업을 기준으로 월 약 25~30시간이 소요됩니다. 이는 추출 도구가 이미 작업을 완료한 이후에 존재하는 수식 작업입니다. 추출 자체는 페이지당 몇 초면 끝나지만, 수식은 송장당 몇 분이 걸립니다. 추출 속도가 빨라질수록 수식 격차는 비례적으로 더 커지며, 줄어들지 않습니다.

엑셀 템플릿으로도 수식을 자동화할 수 있지 않나요?

미리 만들어진 엑셀 템플릿은 배치별 설정 시간을 줄여주지만 수동 작업을 완전히 없애지는 못합니다. 템플릿은 여전히 각 추출 결과에 적용해야 하며, 데이터 가져오기, 열 정렬이 틀어지지 않았는지 확인, 수식이 올바른 행을 참조하는지 검증이 필요합니다. 템플릿은 수식을 작성하는 데는 도움이 되지만 검증에는 도움이 되지 않습니다. 2행부터 13행까지 합산하는 SUM 수식은 인보이스에 14개의 항목이 있고 14행이 조용히 누락되면 제대로 작동하지 않습니다. 템플릿은 수식 작업을 줄여주지만 수식 검토의 필요성을 없애지는 않으며, 검토가 실제로 시간을 많이 소모하는 부분입니다.

ImageToTable.ai의 계산 열은 손글씨 인보이스에서도 작동하나요?

네 — 계산 열은 인쇄된 문서든 손글씨든 AI가 문서에서 추출한 모든 값에 대해 작동합니다. AI가 손글씨 인보이스에서 수량과 단가를 읽을 수 있다면, 인쇄된 인보이스와 마찬가지로 추출 중에 곱셈을 수행할 수 있습니다. 계산의 정확도는 기본 추출의 정확도에 따라 달라집니다. 손글씨 숫자를 잘못 읽으면 계산 결과에도 그 오류가 전달됩니다. AI의 필체 인식 정확도는 가독성에 따라 달라집니다 — 표준 양식에 명확하게 쓰여진 숫자는 안정적으로 추출되지만, 구조화되지 않은 레이아웃에 빽빽하고 흘려 쓴 글씨는 검토가 필요할 수 있습니다.

계산 열은 어떤 종류의 계산을 처리할 수 있나요?

계산 열은 행 수준 산술(같은 행의 필드 간 곱하기, 나누기, 더하기, 빼기), 행 간 집계(문서 내 모든 라인 합계 합산), 조건부 논리(인보이스 총액이 임계값을 초과하면 "예산 초과", 그렇지 않으면 "정상" 출력), 고정 매개변수 참조(문서에 포함될 필요 없이 계산 규칙에 세율 또는 참조값 포함), 다단계 파생(라인 항목에서 소계 계산 후 세금 적용 후 인쇄된 총액과 비교)을 지원합니다. 간단한 계산의 경우 열 이름에 직접 로직을 작성하세요. 복잡한 다단계 계산의 경우 로그인한 사용자가 사용할 수 있는 JSON 규칙 형식을 사용하세요.

인간의 송장 검토가 더 이상 필요하지 않나요?

아닙니다. 그리고 그것이 목표도 아닙니다. Computed Columns는 계산 단계를 대체할 뿐, 검토 단계를 대체하지는 않습니다. 인간은 여전히 출력 결과를 보고 차이가 무엇을 의미하는지 결정해야 합니다. 35달러의 차이가 허용 가능한 반올림 오차인지, 크레딧 메모가 필요한 청구 오류인지 말이죠. Computed Columns의 가치는 산술이 이미 완료되었기 때문에 인간이 더 빨리 결정을 내릴 수 있다는 점입니다. 35달러의 차이를 발견하기 위해 5분 동안 수식을 설정하는 대신, 검토자는 출력에서 즉시 이를 확인하고 그 5분을 어떻게 처리할지 결정하는 데 사용합니다.

Computed Columns가 지원하지 않는 계산이 필요하면 어떻게 하나요?

Computed Columns는 가장 일반적인 추출 후 계산(산술, 합계, 비교, 조건부 로직)을 다룹니다. 고도로 전문화된 계산(보험수리 공식, 실시간 환율의 다중 통화 외환 변환, 감가상각 일정)의 경우 Excel이나 전용 재무 시스템이 적절한 도구로 남아 있습니다. Computed Columns는 반복적이고 공식적인 추출 후 작업의 90%를 처리하도록 설계되었으며, 모든 스프레드시트 기능을 대체하지는 않습니다. 대부분의 송장 처리 워크플로에서 그 90%가 소요 시간의 대부분을 차지합니다.

계산된 합계로 다음 송장이 처리되는 방식 보기

송장을 업로드하고, 계산 열을 추가하세요. 추출 중에 계산이 이루어지는 것을 확인하세요 — 이후가 아닙니다.

📮 contact email: [email protected]