수기로 작성된하청업체 청구서 데이터 추출 방법

대부분의 청구서 추출 도구는 기업 공급업체의 인쇄된 PDF를 위해 설계되었습니다. 지역 제재소의 휘갈겨 쓴 공급업체 청구서를 기존 OCR 시스템에 넣으면, 필드 이름이 깨지거나 아예 인식되지 않는 결과가 나옵니다. 대부분의 청구서를 종이로, 특히 수기로 받는 하청업체에게 "그냥 OCR 도구를 사용하세요"라는 일반적인 조언은 통하지 않습니다.

펜과 계산기가 있는 책상 위의 수기 청구서 문서들

핵심 요약

  1. 수기 청구서는 기존 OCR을 무력화시킵니다. 도구가 페이지의 예상 위치에서 문자 모양을 읽기 때문인데, 휘갈겨 쓴 제재소 청구서는 그 어떤 패턴도 따르지 않습니다.
  2. 실패 원인은 필체의 정돈 여부가 아닙니다. 템플릿 기반 추출은 모든 필드에 고정 좌표가 필요한데, 20개의 다른 공급업체가 각각 청구서 날짜를 페이지의 다른 구석에 적어 넣습니다.
  3. ImageToTable.ai는 필드의 의미를 이해하여 위치를 찾습니다. "청구서 날짜"는 격자 위치를 스캔하는 것이 아니라 문맥상의 날짜를 인식하여 찾아냅니다. 이 한 가지 차이점이 수기 청구서 추출을 실제로 작동하게 만듭니다.

수기 송장이 기존 OCR을 무력화하는 이유

인쇄된 송장은 예측 가능한 구조를 가집니다. 공급업체 이름은 헤더 블록에, 송장 번호는 오른쪽 상단 근처에, 라인 항목은 라벨이 있는 열의 그리드로 배열됩니다. 기존 OCR 도구는 바로 이러한 가정을 기반으로 구축되었습니다. 즉, 예상 위치에서 텍스트를 찾아 템플릿과 일치시킵니다.

지역 공급업체의 수기 송장은 이러한 가정을 모두 깨뜨립니다. 공급업체는 왼쪽 상단 여백에 사업체 이름을 휘갈겨 쓸 수 있습니다. 라인 항목은 표 대신 대시를 사용하여 세로로 쌓일 수 있습니다. 합계는 라벨 없이 오른쪽 하단 모서리에 동그라미로 표시될 수 있습니다. 참조 문서의 각 필드 주변에 상자를 정의해야 하는 템플릿 기반 OCR 시스템은 이러한 가변성을 처리할 수 없습니다. 새로운 공급업체의 필체마다 새 템플릿이 필요하며, 일부 송장은 너무 자유분방하여 어떤 템플릿도 전혀 작동하지 않습니다.

이것이 바로 기본 엔진이 중요한 이유입니다. 기존 OCR은 문자 모양과 패턴(픽셀 수준 매칭)을 감지합니다. 소문자 "g"의 고리와 "t"의 가로선을 보고 통계적으로 추측합니다. 필체가 급하거나 기울어져 있거나 공급업체마다 다를 때, 이러한 픽셀 수준 패턴은 빠르게 저하됩니다. 그 결과: "Bob's Electric" 대신 "B0b's Electric", "$2,350.00" 대신 "$23,$0.00", 또는 OCR이 신뢰도 임계값에 도달하지 못해 필드가 비어 있는 것으로 등록됩니다.

시각적 언어 모델(최신 AI 필체 추출 기술의 기반)은 다르게 작동합니다. 문자 모양을 일치시키는 대신 사람처럼 문서를 이해합니다. 즉, 문맥을 읽고 "Bob's"가 이름이고 "$2,350.00"가 금액임을 인식하며, 개별 문자가 모호한 경우에도 이를 파악합니다. 이러한 의미론적 접근 방식은 기존 OCR이 결코 할 수 없었던 방식으로 수기 송장 추출을 실행 가능하게 만듭니다. 이 두 접근 방식의 차이점에 대한 자세한 비교는 AI 필체 인식과 기존 OCR 비교 분석을 참조하세요.

수기 인보이스 추출 도구가 반드시 갖춰야 할 세 가지 조건

수기 인보이스 업무를 처리하거나 쌓이지 않도록 방지할 도구를 평가 중이라면, 다음 세 가지 필수 조건을 확인하세요. 하나라도 빠지면 일주일 안에 다시 수동 입력으로 돌아가게 됩니다.

1. 템플릿 불필요. 이것이 핵심입니다. '샘플 인보이스'를 업로드하고 필드에 박스를 그리라고 요구하는 도구는 동일한 형식의 반복 발행 인보이스에 맞춰 설계된 것입니다. 건설업체는 목재소, 배관 자재상, 장비 렌탈 업체, 독립 하청업체 등 10~30곳의 공급업체와 거래하며, 각각 필체와 레이아웃이 다릅니다. 공급업체마다 별도 템플릿이 필요하다면 설정 시간만으로 절감 효과가 사라집니다. 도구는 사전 설정 없이 각 인보이스를 자체적으로 읽을 수 있어야 합니다.

2. 위치 기반이 아닌 의미 기반 필드 감지. 인쇄된 인보이스에서 'Invoice Date'는 항상 상단에 있습니다. 하지만 수기 인보이스에서는 날짜가 여백에 휘갈겨 쓰이거나, 첫 번째 항목 위에 적히거나, 모서리에 대각선으로 낙서될 수 있습니다. 위치 기반 도구는 이를 찾지 못합니다. 의미 기반 도구—날짜가 문맥상 어떻게 보이는지 이해하는 도구—는 페이지 내 어디에 있든 위치를 파악합니다. 이것이 맞춤형 열 추출이 제공하는 기능입니다. AI에 원하는 필드('Invoice Date', 'Supplier Name', 'Line Total')를 알려주면, 고정 좌표를 스캔하는 대신 의미를 이해하여 값을 찾아냅니다.

3. 단순 필기 인식이 아닌 필기 내성. 인식은 AI가 'Smith & Sons'를 깔끔한 필기체로 읽을 수 있는지 확인하는 것입니다. 내성은 펜 잉크가 거의 떨어졌거나, 트럭 글러브 박스에 접힌 종이에 주름이 생겼거나, '&'가 더하기 기호처럼 보일 때도 같은 이름을 읽을 수 있는지 여부입니다. 통제된 데모 조건에서는 작동하지만 실제 건설업체 서류에서는 실패하는 도구는 쓸모가 없습니다. 추출 시스템은 이상적인 샘플이 아닌, 업계에서 실제로 받는 수기 인보이스의 품질을 처리할 수 있어야 합니다.

단계별 가이드: 손글씨 공급업체 송장을 구조화된 엑셀로

실제 사례를 살펴보겠습니다. 당신은 주택 전기 기사입니다. Ferguson에서 Maple Street 주방 리모델링에 필요한 12/2 Romex, 정션 박스, 차단기를 배송했습니다. 배송 전표는 손글씨로 작성되었습니다. Ferguson 기사가 창고에서 작성한 것으로, 품목 번호는 약어로 볼펜 휘갈겨 써져 있습니다. 금요일까지 QuickBooks에 입력하여 공사 원가를 계산해야 하지만, 이 송장 같은 7개 송장에 걸친 10개 품목을 다시 입력하면 한 주가 끝나 버립니다.

다음은 추출 작업 과정을 단계별로 설명합니다.

1
손글씨 송장 업로드. 휴대폰으로 사진을 찍거나 스캔하세요. JPG, PNG, PDF 모두 가능합니다. 도구가 이미지를 직접 읽으므로 별도의 스캔이나 형식 변환 단계가 필요 없습니다. 여러 송장은 함께 업로드하여 일괄 처리할 수 있습니다.
2
원하는 열 정의. 추출 도구에 필드 이름을 입력하세요. "공급업체명", "송장 날짜", "품목 번호", "설명", "수량", "단가", "항목 합계" 등입니다. 상자를 그리거나 좌표를 설정할 필요가 없습니다. AI가 이 열 이름을 읽고 송장 페이지 어디에서든 일치하는 데이터를 찾습니다. 특정 송장에 필드가 없는 경우(예: 공급업체가 품목 번호를 기재하지 않는 경우) 해당 셀은 그대로 비어 있습니다. 아무 문제없습니다.
3
한 번의 클릭으로 모든 것 추출. AI가 각 송장을 5~10초 안에 처리하여 지정한 모든 필드를 찾습니다. 품목은 행으로 유지됩니다. 공급업체명은 휘갈겨 쓴 필기체라도 일치시킵니다. 금액은 감지되어 표준화됩니다. $23,$0.00 같은 오류가 없습니다. 내보내기 전에 결과를 검토하여 주의가 필요한 부분을 확인할 수 있습니다. 일반적인 손글씨 송장의 경우 수정률은 대개 낮습니다.
4
엑셀로 내보내고 QuickBooks로 가져오기. 결과를 XLSX 파일로 다운로드하세요. 각 품목이 한 행이고, 열은 2단계에서 정의한 이름과 일치합니다. 파일은 구조화되어 QuickBooks Online, Xero 또는 공사 원가 계산 스프레드시트로 바로 가져올 수 있습니다. 예상과 전혀 다른 CSV를 수동으로 수정할 필요가 없습니다.
JPG/PNG/PDF AI 추출

파일은 안전하게 처리되며 저장되지 않습니다.

왜 하청업체는 인보이스가 '디지털화'되길 기다리면 안 되는가

추출 도구를 평가하는 하청업체들이 흔히 하는 말이 있습니다. "그냥 공급업체에 종이 대신 PDF를 보내 달라고 하면 되잖아." 합리적으로 들리지만, 업계에서 왜 손글씨 인보이스가 여전히 쓰이는지를 간과한 겁니다.

동네 자재상의 배달 기사가 트럭 안에서 iPad로 인보이스를 이메일로 보내기 시작하지 않습니다. 1987년부터 같은 방식으로 장사해 온 전기 도매상이 한 고객 요청 때문에 전자 인보이스로 바꾸지 않습니다. 독립 하청업체들 — 욕실 리모델링에 투입한 미장공, 배관 공사 도와준 HVAC 기사 — 은 트럭에 있는 아무 종이나 꺼내 인보이스를 씁니다. 이들은 AP 부서가 있는 회사가 아니라, 노트와 펜이 인보이스 시스템인 숙련된 기술자들입니다.

건설 업계의 손글씨 인보이스 의존도는 곧 해결될 임시 현상이 아닙니다. 구조적 현실입니다. 이 업계는 문서 형식보다 속도와 유연성을 중시하는 소규모 독립 사업자 간의 관계로 돌아갑니다. 손글씨 인보이스를 작성해 배송과 함께 던져주는 공급업체는, 당신이 급할 때 새벽 6시에도 나타나는 업체입니다. 인보이스 형식 때문에 그들을 내칠 수 없고, 좋은 공급업체 관계와 관리 가능한 사무실 중 하나를 선택해야 해서도 안 됩니다.

해결책은 업계가 디지털화되길 기다리는 것이 아닙니다. 실제로 받는 인보이스 — 손글씨, 타자, 혼합 — 에서 작동하는 추출 도구를 사용하는 것이며, 공급업체의 운영 방식을 바꿀 필요도 없습니다. 기술이 이제 업계 현실을 따라잡았습니다.

자주 묻는 질문

필기체 품질이 추출 정확도에 영향을 미치나요?

영향은 있지만 생각보다 적습니다. 최신 AI 필기체 추출은 의미 이해(semantic understanding)를 사용합니다. 즉, 사람이 지저분한 필기체를 보고 주변 정보를 통해 해석하는 것처럼, 낙서 같은 단어 주변의 맥락을 읽어 의미를 파악합니다. 대문자 블록체가 가장 쉽고, 흘린 필기체는 더 어렵지만 여전히 추출 가능합니다. 일반적으로 실패를 유발하는 것은 필기체 자체의 문제보다는 극단적인 조건(심한 각도로 쓰인 텍스트, 겹친 문자, 종이와 대비가 거의 없는 희미한 잉크)입니다. 배송 전표나 공급업체 청구서에서 흔히 볼 수 있는 일반적인 업무용 필기체의 경우 정확도가 높아 수정이 필요한 부분은 전체 필드가 아닌 개별 문자 수준에 그칩니다.

인쇄된 부분과 필기된 부분이 섞인 청구서도 처리할 수 있나요?

네. 많은 공급업체 청구서에는 인쇄된 헤더(회사 로고, 주소 블록)와 필기로 작성된 부분(항목, 수량, 서명)이 있습니다. AI는 인쇄된 텍스트는 거의 완벽한 정확도로, 필기된 텍스트는 위에서 설명한 의미 이해를 통해 모두 읽습니다. 두 가지를 사전 처리하거나 분리할 필요 없이, 동일한 추출 과정이 페이지 전체를 처리합니다.

두 공급업체가 완전히 다른 청구서 레이아웃을 사용하면 어떻게 되나요?

문제없습니다. 각 레이아웃에 대해 별도 설정이 필요한 템플릿 기반 도구와 달리, 의미 필드 감지를 사용하는 AI 추출은 페이지 내 위치에 상관하지 않습니다. "청구서 날짜"는 한 공급업체 청구서의 오른쪽 상단에 있든, 다른 업체의 왼쪽 하단에 있든 찾아냅니다. 이것이 의미 기반 추출이 템플릿 기반 추출보다 계약자에게 가장 큰 장점입니다. 열을 한 번만 정의하면 모든 공급업체 형식에서 작동합니다.

처음 설정하는 데 얼마나 걸리나요?

사실상 설정이 필요 없습니다. 추출하려는 열 이름을 입력하기만 하면 됩니다. 샘플 문서를 업로드하거나, 템플릿을 만들거나, 학습 데이터를 제공할 필요가 없습니다. 필요한 필드(공급업체명, 청구서 날짜, 항목, 합계)를 이미 알고 있다면 1분 이내에 완료됩니다. 열 구성을 프리셋으로 저장하여 재사용할 수 있으므로, 이후 청구서 배치에서도 다시 입력하지 않고 동일한 필드 정의를 사용할 수 있습니다.

하청업체 청구서도 가능한가요? 공급업체 청구서만 되는 건가요?

네, 가능합니다. 미장공이나 HVAC 기술자가 종이에 "40시간 × $65/시간 = $2,600"이라고 적은 하청업체 청구서는 여러 항목이 있는 공급업체 청구서보다 구조적으로 더 단순합니다. 동일한 추출 프로세스로 처리됩니다. 열을 "하청업체명", "날짜", "시간", "단가", "합계"로 정의하면 AI가 필기된 시트에서 레이아웃과 관계없이 해당 값을 추출합니다. 여러 하청업체 청구서를 한 번에 처리하려면 일괄 추출이 더 빠른 방법입니다.

📮 contact email: [email protected]