데이터 추출은 절반만 완료한 작업입니다

문서 추출 업체의 웹사이트에 5분만 투자해도 같은 이야기를 듣게 됩니다. PDF를 업로드하면 스프레드시트가 나온다는 것입니다. 그 이야기는 구조화된 데이터가 Excel에 나타나는 순간 끝납니다. 하지만 실제로 송장 처리를 해본 사람이라면 숫자를 표에 넣는 것이 쉬운 부분이라는 것을 압니다. 오후 시간을 잡아먹고, 3개월 후 조정 과정에서 표면화되는 오류를 만드는 작업은 추출이 끝난 후에 발생합니다. 수식 입력줄에서 발생합니다.

문서 추출이 실제로 제공하는 것과 제공하지 않는 것

설명은 간단합니다. 40줄짜리 인보이스가 PDF로 도착합니다. 업로드하면 AI가 각 청구 항목(설명, 수량, 단가, 라인 합계)을 읽고 이미 열 레이블이 지정된 스프레드시트를 출력합니다. 마케팅 용어로는 '엔드투엔드 자동화'입니다. 회계 용어로는 시작 신호탄입니다.

추출 후 스프레드시트에 실제로 포함된 것은 페이지에 표시된 그대로의 원시 값이기 때문입니다. 수량 열에는 숫자가, 단가 열에는 숫자가, 라인 합계 열에는 숫자가 있습니다. 하지만 AI도, 추출 엔진도 수량 × 단가가 인보이스에 인쇄된 라인 합계와 실제로 일치하는지 확인하지 않습니다. 20개 라인 합계를 모두 더해 마지막 페이지의 소계와 비교하지도 않습니다. 소계에 적용된 세율이 공급업체가 기재한 세금 금액을 산출하는지 확인하거나, 숫자가 일치하지 않을 때 인보이스에 '검토 필요' 플래그를 지정하지도 않습니다.

추출 도구는 데이터를 제공했습니다. 검증된 데이터를 제공한 것은 아닙니다. 그리고 이 두 가지 사이의 간극, 즉 '숫자가 Excel에 있다'와 '숫자가 정확하고 원장에 반영될 준비가 되었다' 사이의 간극에서 실제 시간이 사라집니다.

추출은 비정형 문서를 정형 데이터로 변환합니다. 이는 형식 변환, 즉 해결된 문제입니다. 대부분의 팀에게 여전히 해결되지 않은 과제는 해당 데이터에 대한 연산, 즉 라인 합계, 교차 행 집계, 조건부 플래그 지정, 차이 감지입니다. 이는 추출 작업이 아닌 추출 후 작업이며, 거의 전적으로 수동으로 이루어집니다.

수동 데이터 입력보다 비용이 더 많이 드는 스프레드시트 수식

인보이스 데이터 추출 도구는 '숫자 입력' 단계를 페이지당 3분에서 약 5-10초로 단축했습니다. 이는 확실한 개선입니다. 하지만 PDF 도착부터 '게시 준비 완료'까지의 전체 워크플로우에 스톱워치를 대면, 대부분의 도구 비교에서 포착하지 못하는 방식으로 시간 분포가 바뀝니다.

AI 추출 후 일반적인 인보이스 처리 워크플로우에는 최소 네 가지 범주의 수식 작업이 포함됩니다. 각각은 개별적으로 작습니다. 여기서 열 하나, 저기서 SUM 하나. 하지만 이들은 collectively 예산에 잡히지 않는 반복적인 스프레드시트 조립 라인을 형성합니다.

라인 합계 검증. 송장의 각 행에 대해 E열에 =C2*D2가 필요합니다 — 수량에 단가를 곱한 값이며, F열에 인쇄된 라인 합계와 비교해야 합니다. 15개 라인 항목이 있는 단일 송장은 15개의 곱셈 수식과 15개의 비교 수식을 의미합니다. 월 200건의 송장을 처리하면 6,000개의 수식 셀을 만들고, 드래그하고, 점검해야 합니다.
소계 검증. 개별 라인을 확인한 후, 계산된 라인 합계를 합산하여 인쇄된 소계와 비교합니다. 그런 다음 세율(관할 구역이나 라인 항목에 따라 다를 수 있음 — 일부 항목은 과세되고 일부는 면세됨)을 적용하여 인쇄된 세액과 비교합니다. 그런 다음 소계에 세금을 더한 총액을 송장 합계와 비교합니다. 세율이 분할된 여러 페이지 송장의 경우, 이는 단순한 SUM 수식이 아닙니다. 상위 값이 하나라도 틀리면 깨지는 상호 의존적인 계산 체인입니다.
조건부 플래그. 송장 합계가 구매 주문 금액을 초과합니까? 지불 기한이 7일 이내입니까(긴급 승인 플래그)? 공급업체가 선호 공급업체 목록에 있습니까? 이 각각은 조건부 수식입니다 — =IF(F2>G2,"예산 초과","") — 누군가가 작성하고, 서식을 지정하고, 모든 행에 드래그합니다.
표준화 수식. 날짜는 가능한 모든 형식으로 들어옵니다: 06/15/2026, 15-Jun-2026, 20260615. 통화 금액은 공급업체 국가에 따라 소수점 구분자로 쉼표와 마침표를 혼용합니다. 누군가 =DATEVALUE() 래퍼와 =SUBSTITUTE() 체인을 작성하여 회계 시스템에 입력하기 전에 모든 것을 정규화합니다.

이 작업 중 어느 것도 추출이 아닙니다. AI는 이미 올바른 숫자를 추출했습니다. 하지만 이러한 계산이 완료될 때까지 숫자는 사용할 수 없습니다. 그리고 대부분의 조직에서 계산 작업량은 눈에 보이지 않습니다. 이 작업은 엑셀에서, 회의 사이 15분 단위로, 직무 설명에 "스프레드시트 수식 기술자"가 포함되지 않은 사람들에 의해 이루어집니다. 작업은 완료되지만, 시간이 얼마나 걸리는지 추적하는 사람은 없으며 — 그것이 필요한지 묻는 사람도 없습니다.

중간 규모 기업의 AP 담당자가 월 200건의 송장을 처리하고 송장당 평균 8분을 추출 후 수식 작업(검증 열 작성, 수식 드래그, 소계 검증)에 소비한다면, 이는 데이터를 추출하지만 아무것도 계산하지 않는 작업에 월 26시간을 소비하는 것입니다. BLS 회계 담당자 중간 임금 $23.33/시간 기준으로, 수식 작성 인건비만 월 600달러가 넘습니다. 3명으로 구성된 팀의 경우 월 1,800달러, 연간 21,600달러를 추출 중에 계산이 이루어졌다면 필요 없었을 엑셀 수식에 지출하는 것입니다.

추출 도구는 팀의 시간을 페이지당 3분 절약했습니다. 하지만 뒤따른 수식 작업 — 라인 합계, 교차 확인, 조건부 열 — 은 도구가 전혀 건드리지 않은 8분을 더 소모했습니다. 실제 병목 현상은 사라지지 않았습니다. 단지 더 눈에 띄게 되었을 뿐입니다.

문서 추출 업계가 추출을 완료 지점으로 보는 이유

시장을 지배하는 도구들 — 템플릿 기반 OCR, 머신러닝 분류기, 대규모 비전 모델 — 모두 "문서 이미지가 주어졌을 때 구조화된 텍스트를 출력하라"는 단일 엔지니어링 문제를 해결하기 위해 만들어졌습니다. 이는 수십 년이 걸린 어려운 문제였습니다. 이러한 도구를 만드는 팀들은 당연히 자신들이 해결할 줄 아는 문제를 중심으로 조직됩니다.

하지만 엔지니어가 생각하는 "완료"의 정의 — "텍스트가 데이터베이스 행에 들어갔다" — 는 회계사가 생각하는 "완료"의 정의 — "숫자가 검증·계산되어 총계정원장에 입력될 준비가 되었다" — 와 일치하지 않습니다. 추출 결과물은 데이터 산출물입니다. 회계 결과물은 재무 산출물입니다. 하나에서 다른 하나로 변환하려면 계산이 필요하지만, 추출 업계는 그 계산을 대부분 사용자에게 맡겨 왔습니다.

이는 개별 도구의 실패가 아닙니다. 문제가 정의된 방식 자체의 구조적 결함입니다. 소프트웨어 업계는 문서 처리를 바라보며 "OCR을 개선해야 한다"고 생각했습니다. 더 나은 OCR을 만들었습니다. 그다음 "형식이 예측 불가능하다"는 것을 보고 레이아웃에 구애받지 않는 AI를 만들었습니다. 각 반복은 추출을 더 빠르고 정확하게 만들었지만, 동시에 추출 후의 수식 작업 부재를 더욱 두드러지게 만들었습니다. 추출에 10초가 걸리고 수식 작업에 여전히 8분이 걸린다면, 추출 속도는 더 이상 핵심이 아닙니다. 수식 격차가 핵심이 됩니다.

이 격차를 가장 잘 보여주는 증거는 AP 팀이 실제로 추출 도구를 사용하는 방식입니다. 그들은 추출합니다. 엑셀로 내보냅니다. 그런 다음 열을 추가합니다. 데이터를 놓쳐서가 아니라, 도구가 계산을 하지 않기 때문입니다. 수량 × 단가 열을 추가합니다. 차액 열을 추가합니다. 승인 플래그 열을 추가합니다. 날짜 표준화 열을 추가합니다. 회계 시스템으로 보내는 스프레드시트는 추출 도구가 생성한 열보다 두 배나 많은 열을 갖게 됩니다. 절반은 추출 결과물이고, 나머지 절반은 화요일 오후 4시에 누군가가 작성한 수식입니다.

수작업 입력은 그만 — AI가 대신 읽어드립니다

이미지나 PDF를 업로드하세요 — 10초 만에 정형 데이터로

지금 체험하기 →

회원가입 불필요 · 카드 불필요 · 10초 내 결과

실제 업무에서의 계산 차이: 송장 합계가 일치하지 않을 때

추출 후 수동 계산이 단순히 번거로울 뿐만 아니라 구조적으로 위험한 이유를 이해하려면, AP에서 가장 흔한 조정 실패 사례인 송장 합계 불일치를 생각해보십시오.

공급업체가 12개 라인 항목이 있는 송장을 보냅니다. 추출 도구는 모든 필드를 정확하게 캡처합니다: 12개의 설명, 12개의 수량, 12개의 단가, 12개의 라인 합계, 1개의 소계, 1개의 세액, 1개의 송장 합계. 모든 숫자는 원본 문서와 일치합니다. 하지만 추출된 12개 라인 합계를 더하면 $3,847입니다. 송장에 인쇄된 소계는 $3,812입니다. 차이는 $35입니다.

오류는 추출 과정에 있는 것이 아닙니다. 공급업체 송장 자체에 있습니다 — 라인 항목의 가격이 잘못되었거나, 할인이 일관되게 적용되지 않았거나, 반올림 처리로 인해 차이가 발생한 것입니다. 하지만 추출 도구는 이를 감지할 메커니즘이 없습니다. 공급업체의 숫자를 검증 없이 충실히 복사했을 뿐입니다. 감지는 누군가가 Excel에서 =SUM(F2:F13)을 작성하고 이를 F15 셀과 비교할 때 이루어집니다. 아무도 그 수식을 작성하지 않거나 — 또는 수식이 올바르게 작성되었지만 여러 페이지로 구성된 송장의 첫 페이지에만 적용된 경우 — $35의 차이는 그대로 남습니다. 이는 총계정원장에 입력되고, 3개월 후 조정 항목이 됩니다. 그 시점에서 원본 송장을 찾고 라인 산술을 확인하는 데 드는 인건비는 $35 그 자체보다 더 큽니다.

이 시나리오는 드문 경우가 아닙니다. 계산 기능이 포함되지 않은 모든 추출 워크플로우의 기본 상태입니다. 모든 송장은 누군가가 스프레드시트에서 수동으로 설정하고 해결해야 하는 수학 문제가 됩니다. 소량 처리 시에는 수학이 관리 가능합니다. 월 200건의 송장에서는 수학이 공식적으로 담당자가 지정되지 않은 풀타임 작업이 됩니다. 월 500건의 송장에서는 수학이 위험이 됩니다 — 95%의 경우 발견되는 오류가 나머지 5%에서는 발견되지 않고, 그 5%의 누락이 중요한 문제이기 때문입니다.

최신 AI 도구의 표준 문서 인쇄 텍스트 추출 오류율은 1% 미만입니다. 하지만 추출 후 계산 오류율 — 수식 실수, 행 누락, SUM 범위 불일치 — 에 대한 공개된 벤치마크는 없습니다. 아무도 측정하지 않기 때문입니다. 그러나 모든 AP 관리자는 이것이 1%보다 높다는 것을 알고 있습니다.

엑셀에서 하던 계산을 추출 단계로 옮기기
문제가 추출은 원시 값만 뽑아내고 계산은 별도 도구에서 해야 한다는 점이라면, 논리적 해결책은 두 단계를 하나로 합치는 것입니다. "먼저 추출하고, 나중에 엑셀에서 계산"하는 대신, AI가 문서를 읽고 출력 테이블을 작성하는 순간에 계산이 실행됩니다.
이것이 ImageToTable.ai가 계산 열이라고 부르는 기능의 작동 원리입니다. 문서에서 추출할 열을 정의할 때, 페이지에 실제로 존재하는 필드로만 제한할 필요가 없습니다. 다른 추출 필드를 계산하여 값을 도출하는 열을 정의할 수 있습니다. AI가 문서를 읽고, 원본 값을 추출하고, 계산을 수행한 후, 결과를 출력에 직접 기록합니다. 단 한 번의 패스로 처리됩니다. 별도의 스프레드시트, 수식 입력줄, 셀 끌기가 필요 없습니다.
송장의 경우, 실질적인 적용은 즉각적입니다:
라인 합계 검증. 계산 열 `계산된 라인 합계 (수량 × 단가)`를 정의합니다. 송장의 모든 라인 항목에 대해 AI가 수량에 단가를 곱해 결과를 출력합니다. 인쇄된 라인 합계 열과 비교하면, 차이는 작성하지 않은 수식이 아닌 출력 결과에서 바로 확인할 수 있습니다.
소계 조정. 추출된 모든 라인 합계를 합산하고 그 결과를 인쇄된 소계와 비교하는 계산 열을 정의합니다. 출력은 단순한 숫자가 아니라 조정 결과입니다: "라인 합계: $3,847. 인쇄된 소계: $3,812. 차이: $35." 한때 엑셀 수식 체인이 필요했던 계산이 추출 자체에 내장됩니다.
세금 검증. 고정 세율 매개변수를 사용하여 계산 열 `예상 세금 (소계 × 0.0825)`을 정의합니다. 인쇄된 세금 금액과 비교합니다. 공급업체가 잘못된 세율을 적용했다면, 데이터가 엑셀에 도달하기 전에 차이가 표시됩니다.
예산 플래그. 송장 총액이 기준 값을 초과하는지 확인하는 계산 열을 정의합니다: `예산 확인 (송장 총액 > 구매 주문 금액)`. 출력은 "예산 초과" 또는 "OK"입니다. 추출 중에 생성되는 조건부 플래그로, 나중에 추가되지 않습니다.
계산 열이 검증의 필요성을 없애는 것은 아닙니다. 검증을 위해 계산할 필요성을 없애는 것입니다. AI가 산술을 수행하고, AP 담당자가 결과를 검토합니다. 이 차이가 중요한 이유는 계산은 기계적인 작업(대규모로 수동 수행 시 오류 발생 가능)이고, 검토는 판단 작업(인간이 더 잘함)이기 때문입니다. 계산을 상류로 옮기면 인간은 송장당 8분을 기계가 할 수 없는 부분, 즉 차이가 의미하는 바와 취해야 할 조치를 결정하는 데 사용할 수 있습니다.
이 기능은 두 가지 형태로 제공됩니다. 빠른 사용을 위해 열 이름에 직접 계산식을 작성할 수 있습니다. 예: `라인 합계 (수량 × 단가)` — AI가 자연어로부터 로직을 파싱합니다. 더 복잡한 다단계 파생의 경우, 로그인한 사용자가 구조화된 JSON 규칙 형식으로 계산을 정의할 수 있어 열 이름은 깔끔하게 유지하면서 계산 로직은 정확하게 표현할 수 있습니다. 두 접근 방식 모두 동일한 결과를 생성합니다: 추출 중에 계산된 값이 출력 테이블의 열이 되는 것입니다. 대량으로 송장을 처리하는 팀의 경우, 계산 열을 사용한 배치 송장 데이터 추출은 한때 몇 시간이 걸리던 사후 처리 수식 작업을 업로드가 완료되기 전에 끝내는 것으로 바꿔줍니다.
JPG/PNG/PDF AI 추출 + 계산
파일은 안전하게 처리되며 저장되지 않습니다.

자주 묻는 질문

추출 후 수식 작업에 실제로 얼마나 시간이 소요되나요?

월 200건의 송장을 처리하는 중견 시장 AP팀의 경우, 추출 후 계산(라인 합계 확인, 소계 조정, 조건부 플래그, 날짜 표준화)에 월 약 25~30시간이 소요됩니다. 이는 송장당 평균 8분의 수식 작업을 기준으로 한 것입니다. 이 수식 작업은 추출 도구가 이미 작업을 완료한 이후에 존재하는 작업입니다. 추출 자체는 페이지당 몇 초면 끝나지만, 수식은 송장당 몇 분이 걸립니다. 추출 속도가 빨라질수록 수식 격차는 비례적으로 더 커지며, 줄어들지 않습니다.

엑셀 템플릿으로도 이 수식을 자동화할 수 있지 않나요?

미리 만들어진 엑셀 템플릿은 배치별 설정 시간을 줄여주지만 수동 단계를 완전히 없애지는 못합니다. 템플릿은 여전히 각 추출 결과에 적용해야 하며, 데이터 가져오기, 열 정렬이 변경되지 않았는지 확인, 수식이 올바른 행을 참조하는지 검증이 필요합니다. 템플릿은 수식 작성에는 도움이 되지만 검증에는 도움이 되지 않습니다. 2행부터 13행까지 합산하는 SUM 수식은 인보이스에 14개의 품목이 있고 14행이 조용히 제외되면 완벽하게 작동하지 않습니다. 템플릿은 수식 작업을 줄여주지만 수식 검토의 필요성을 없애지는 않으며, 검토가 실제 시간을 소모하는 부분입니다.

ImageToTable.ai의 계산 열은 필기 인보이스에서도 작동하나요?

네 — 계산 열은 AI가 문서에서 추출한 값(인쇄물이든 필기든)에 대해 작동합니다. AI가 필기 인보이스에서 수량과 단가를 읽을 수 있다면, 인쇄된 인보이스와 마찬가지로 추출 중에 이를 곱할 수 있습니다. 계산의 정확성은 기본 추출의 정확성에 달려 있습니다. 필기 숫자가 잘못 읽히면 계산 결과에도 그 오류가 전달됩니다. AI의 필기 인식 정확도는 가독성에 따라 달라집니다 — 표준 양식에 명확하게 쓰여진 숫자는 안정적으로 추출되지만, 비정형 레이아웃의 빽빽한 필기체는 검토가 필요할 수 있습니다.

계산 열은 어떤 종류의 계산을 처리할 수 있나요?

계산 열은 행 수준 산술(동일 행의 필드 간 곱하기, 나누기, 더하기, 빼기), 행 간 집계(문서 내 모든 품목 합계 계산), 조건부 논리(인보이스 총액이 임계값을 초과하면 "예산 초과", 그렇지 않으면 "정상" 출력), 고정 매개변수 참조(문서에 포함될 필요 없이 계산 규칙에 세율 또는 참조값 포함), 다단계 파생(품목에서 소계 계산 후 세금 적용, 그런 다음 인쇄된 총액과 비교)을 지원합니다. 간단한 계산의 경우 열 이름에 직접 논리를 작성하세요. 복잡한 다단계 계산의 경우 로그인 사용자가 사용할 수 있는 JSON 규칙 형식을 사용하세요.

인간의 송장 검토가 더 이상 필요하지 않나요?

아닙니다. 그리고 그것이 목표도 아닙니다. Computed Columns는 계산 단계를 대체할 뿐, 검토 단계는 대체하지 않습니다. 인간은 여전히 출력 결과를 보고 차이가 무엇을 의미하는지 판단해야 합니다. 35달러의 차이가 허용 가능한 반올림 오차인지, 아니면 대변 메모가 필요한 청구 오류인지 말이죠. Computed Columns의 가치는 산술이 이미 완료되었기 때문에 인간이 더 빠르게 결정을 내릴 수 있다는 점입니다. 35달러의 차이를 발견하기 위해 5분 동안 수식을 설정하는 대신, 검토자는 출력에서 즉시 이를 확인하고 그 5분을 어떻게 처리할지 결정하는 데 사용합니다.

Computed Columns가 지원하지 않는 계산이 필요하면 어떻게 하나요?

Computed Columns는 가장 일반적인 추출 후 계산(산술, 합계, 비교, 조건부 로직)을 다룹니다. 고도로 전문화된 계산(보험수리 공식, 실시간 환율 기반 다중 통화 환전, 감가상각 일정)의 경우 Excel이나 전용 재무 시스템이 적절한 도구로 남아 있습니다. Computed Columns는 반복적이고 공식적인 추출 후 작업의 90%를 처리하도록 설계되었으며, 모든 스프레드시트 기능을 대체하기 위한 것이 아닙니다. 대부분의 송장 처리 워크플로에서 이 90%가 소요 시간의 대부분을 차지합니다.

계산된 합계로 다음 송장이 처리되는 과정 확인하기

송장을 업로드하고, 계산 열을 추가하세요. 추출 중에 계산이 이루어지는 것을 확인할 수 있습니다. 추출 후가 아닙니다.