하청업체 인증 급여 보고서 추출 방법:
데이비스-베이컨 준수
15개 하청업체가 참여한 연방 고속도로 프로젝트에서 원청의 급여 담당자는 매주 데이터 수집 작업을 수행합니다. 이 작업은 데이비스-베이컨 규정을 이해하는 것과는 전혀 관련이 없으며, 15개 문서에서 데이터를 추출하는 기계적인 과정에 집중되어 있습니다. 각 문서는 제각각 다른 형식으로 도착합니다. 한 하청업체는 WH-347 그리드와 열이 일치하지 않는 Sage 300 CRE 내보내기 파일을 보내고, 다른 업체는 QuickBooks PDF를 이메일로 보냅니다. 세 번째 업체는 2인 규모의 토공사 업체로, 양식을 손으로 작성하고 스캔하여 JPEG 파일로 보냅니다. 규정 준수에 대한 지식은 충분하지만, 추출 과정이 병목 현상을 일으키고 있습니다.
핵심 요약
- 템플릿 기반 OCR은 고정된 양식 레이아웃이 필요하지만, 15개 하청업체는 15가지 다른 형식으로 보고서를 보냅니다.
- 소규모 하청업체는 급여 소프트웨어를 변경할 때마다 보고서 형식을 바꾸며, 형식이 바뀔 때마다 처음부터 새 추출 템플릿을 만들어야 합니다.
- 의미 기반 추출은 WH-347 필드가 페이지에서 어디에 위치하는지가 아니라 무엇을 의미하는지 이해하여 읽습니다. 따라서 별도 설정 없이도 모든 형식을 최초 접촉 시 바로 처리할 수 있습니다.
WH-347 데이터 추출이 일반 급여 추출과 다른 이유
일반적인 급여 데이터 추출 작업은 급여 명세서나 근무 기록표에서 직원 이름, 총액, 순 급여를 가져오는 것입니다. 필요한 정보가 문서에 인쇄된 필드와 일대일로 대응되므로 추출이 간단합니다. 그러나 데이비스-베이컨법(40 U.S.C. §3141 et seq.)에 따른 인증 급여는 세 가지 구조적 복잡성을 야기하여 추출을 근본적으로 더 어렵게 만듭니다.
첫째, 동일한 근로자가 같은 주에 여러 직종으로 분류될 수 있습니다. 목수가 월요일부터 수요일까지 거푸집 작업을 하고 목요일부터 금요일까지 석고보드 작업을 한 경우, WH-347에는 해당 근로자에 대해 각 직종별로 별도의 행이 필요하며, 각각 고유한 적용 임금률이 적용됩니다. 단순히 "근로자 이름"과 "총 시간"만 읽는 추출 도구는 이 중요한 차이를 놓치게 되며, 각 직종마다 다른 기본 요율과 복리후생 할당이 필요하기 때문에 규정 준수 제출이 잘못됩니다.
둘째, 요율 구조는 별도로 추적해야 하는 두 가지 구성 요소로 이루어져 있습니다. 데이비스-베이컨 적용 임금은 기본 시간당 요율에 복리후생 요율을 더한 것으로 구성됩니다. 계약자는 적격 복리후생 계획(연금, 건강 보험, 견습)에 기여하거나 현금 등가물을 근로자에게 직접 지급하여 복리후생 의무를 충족합니다. WH-347의 6A열은 기본 요율을, 6B열은 근로자당 총 복리후생 크레딧을, 6C열은 현금 대체 지급액을 기록합니다. 추출 시 이 세 가지를 모두 보존해야 합니다. "각 근로자가 복리후생을 포함한 적용 임금 이상을 받았는가?"라는 규정 준수 질문은 이러한 구성 요소가 분리되어 유지될 때만 답할 수 있기 때문입니다.
셋째, 계약 근로 시간 및 안전 기준법(CWHSSA)에 따른 초과 근무 규정은 검증 차원을 추가합니다. 적용 대상 계약에서 주 40시간을 초과하는 근무 시간은 기본 요율의 1.5배로 지급되어야 합니다. WH-347은 4열을 각 요일에 대해 일반 근무 시간과 초과 근무 시간으로 나눕니다. "총 시간"만 읽고 일반/초과 근무 구분을 읽지 않는 추출은 노동부 감사관이 수행할 규정 준수 검증(초과 근무가 올바른 시간에 올바른 요율로 계산되었는지 확인)을 지원할 수 없습니다.
이러한 세 가지 구조적 특징(다중 직종 행, 이중 요율 복리후생 추적, 필수 일반/초과 근무 구분)은 인증 급여 추출이 일반적인 "페이지에서 숫자 읽기" 작업으로 처리될 수 없음을 의미합니다. 추출은 필드 값 자체뿐만 아니라 필드 간의 관계도 보존해야 합니다.
WH-347 규정 준수 확인을 위한 주요 데이터 포인트
추출 방식을 선택하기 전에 WH-347에서 규정 준수 결정에 활용되는 특정 데이터 포인트를 파악하는 것이 좋습니다. 이 양식은 작업자당 분류 행별로 약 18개의 데이터 포인트를 수집하지만, 그중 7개가 감사에서 가장 중요합니다.
| WH-347 항목 | 열 | 규정 준수 중요성 |
|---|---|---|
| 작업자 ID (주민번호 끝 4자리) | 1E | 매주 일관성을 유지해야 합니다. 다른 ID로 사라졌다 나타나는 작업자는 위험 신호입니다. |
| 작업 분류 | 3 | 프로젝트 임금 결정의 분류와 일치해야 합니다. 잘못된 분류는 가장 흔한 DBRA 위반입니다. |
| 기본/초과 근무 시간 (일별 × 7) | 4 | CWHSSA는 기본 요율의 1.5배 초과 근무를 요구합니다. 일별 내역은 현장 출입 기록과 교차 확인이 가능합니다. |
| 총 근무 시간 | 5 | 일별 시간의 합계입니다. 기본 + 초과 근무 시간과 같아야 합니다. 산술 오류는 모든 계산에 영향을 미칩니다. |
| 기본 요율 + 프린지 크레딧 | 6A / 6B | 기본 요율 + 프린지 크레딧은 해당 분류의 prevailing wage 이상이어야 합니다. 감사 대비를 위해 두 값 모두 필요합니다. |
| 총 수입 | 7A | (기본 시간 × 기본 요율) + (초과 시간 × 초과 요율) + 프린지 크레딧과 대략 일치해야 합니다. 허용 오차 ≤1% 반올림. |
| 공제 (FICA, 세금, 기타) | 8 | 29 CFR Part 3을 준수해야 합니다. 승인되지 않은 공제(예: 도구, 유니폼)는 DOL 승인이 필요합니다. |
가장 중요한 검증 관계는 열 5, 6A, 6B, 7A 간의 교차 확인입니다. 총 시간 × 요율 + 프린지 크레딧이 반올림 오차 범위 내에서 총 수입과 일치해야 합니다. 추출 시 7개 필드를 모두 독립적으로 보존하면 이 검증이 수동 재계산이 아닌 자동 확인이 됩니다. 그러나 분류가 통합되거나 기본/초과 근무 구분이 누락되면 검증이 깨지고, 해결했다고 생각한 규정 준수 격차는 그대로 남게 됩니다.
하청업체 서식 문제는 규정 준수 문제가 아닌 데이터 문제입니다
기존 기사 소규모 건설업체에게 공인 급여가 수동 작업의 악몽인 이유는 원청업체의 엄격한 책임, 3년 감사 기간, 1억 2천만 명의 근로자를 담당하는 611명의 조사관 등 구조적 규정 준수 과제를 자세히 설명합니다. 하지만 이 기사는 별도로 다룰 가치가 있는 더 좁고 기계적인 병목 현상, 즉 서식 문제도 지적합니다.
15개의 하청업체가 각기 다른 형식으로 공인 급여 데이터를 보낼 때, 원청업체의 데이터 추출 작업은 규정 준수 지식 문제가 아닙니다. 문서 판독 문제입니다. 각 형식에는 동일한 필수 필드(근로자 이름, 분류, 시간, 요율, 총액, 공제액, 순액)가 포함되어 있지만, 배열 방식이 다르고, 레이블이 다르며, 때로는 필드가 완전히 누락되어 원청업체가 7일 제출 기한이 다가오는 동안 누락된 복리후생 문서를 추적해야 합니다.
템플릿 기반 OCR 도구는 여기서 실패합니다. 고정된 양식 레이아웃의 각 필드 주위에 사각형을 그려야 합니다. A업체 보고서의 "급여율"이 오른쪽 상단에 있고 B업체 보고서의 동일 필드가 페이지 중간쯤의 열 머리글에 있으면 템플릿이 깨집니다. 모든 하청업체 형식에 대해 별도의 템플릿이 필요하며, 소규모 하청업체는 급여 소프트웨어나 회계 법인을 변경할 때마다 보고 형식을 자주 바꿉니다.
Procore, Viewpoint Vista, Sage 300 CRE 또는 hh2와 같은 전용 규정 준수 소프트웨어를 사용하는 건설 회사는 시간 입력 데이터에서 자체 공인 급여 보고서를 생성할 수 있습니다. 그러나 하청업체가 보내는 형식을 제어할 수는 없습니다. 서식 문제는 원청업체와 하청업체 사이의 경계에 있으며, 근본적으로 추출 문제입니다. 즉, 들어오는 모든 문서 형식에서 데이터를 읽고 단일 표준 구조로 매핑하는 방법입니다.
서식 문제는 필요한 데이터를 아는 것이 아니라 기계가 읽도록 설계되지 않은 문서에서 해당 데이터를 읽는 것입니다. 모든 하청업체 보고서에는 동일한 규정 준수 핵심 필드가 포함되어 있습니다. 어려운 점은 각 보고서가 이러한 필드를 서로 다른 시각적 레이아웃에 포함하고 있다는 것입니다.
AI 의미론적 추출로 정기 급여 보고서 추출하는 방법
이것은 템플릿 없는 AI 문서 추출에 관한 기사에서 자세히 설명된 사용자 정의 열 추출(Custom Column Extraction)이라는 접근 방식이 정기 급여 데이터 수집 워크플로를 어떻게 바꾸는지 보여줍니다.
사용자 정의 열 추출은 출력에서 역방향으로 작동합니다. 문서의 레이아웃을 분석하고 필드별로 추출 규칙을 정의하는 대신, 최종 테이블에 원하는 열("작업자 이름", "분류", "기본 요율", "후생 요율", "정규 시간", "초과 시간", "총액")을 AI에 알려주면, AI가 각 하청업체의 보고서를 읽고 의미를 이해하여 해당 값을 찾아 올바른 열에 배치합니다. 각 하청업체 양식의 레이아웃은 중요하지 않습니다. AI가 픽셀 좌표가 아닌 의미론적으로 매칭하기 때문입니다.
정기 급여 추출 워크플로는 다음과 같습니다:
작업자 이름, 주민번호 뒤 4자리, 분류, 기본 요율, 후생 요율, 정규 시간, 초과 시간, 총 시간, 총액, 공제액, 순 급여. AI는 이 이름들을 의미론적 대상으로 사용합니다.하청업체 이름 및 배치 이름 열이 포함되어 모든 데이터를 원본 문서로 추적할 수 있습니다.실제 정기 급여 문서로 시도해 보세요. 하청업체 WH-347을 업로드하고 위의 열 이름을 입력하면 설정 없이 추출이 실행됩니다.
파일은 안전하게 처리되며 저장되지 않습니다.
추출 데이터 자동 규정 준수 검사
데이터가 구조화된 스프레드시트로 추출되면, 규정 준수 확인은 수동 검사 작업에서 자동화된 검증 세트로 전환됩니다. 추출된 열은 하나의 테이블이 되어 DOL 감사관이 수행할 검사를 모든 15개 하청업체에 대해 몇 시간이 아닌 몇 분 만에 실행할 수 있습니다.
근무시간 × 요율 조정. 가장 기본적인 규정 준수 확인: 각 근로자의 총액이 (정규 시간 × 기본 요율) + (초과 시간 × 기본 요율 × 1.5) + 프린지 크레딧과 일치하는지 확인합니다. 15명 근로자 보고서의 경우 수동 계산이 15번 필요합니다. 추출된 열이 있는 스프레드시트에서는 단일 수식을 행 전체에 드래그하면 됩니다. 차이가 1%를 초과하는 행을 표시하여 제출 전에 조사하십시오.
분류-임금 결정 매칭. 추출된 각 분류를 SAM.gov의 해당 임금 결정에 명시된 분류와 비교합니다. 하청업체가 근로자를 "일반 노무자"로 보고했지만 임금 결정에 다른 요율의 "노무자(공통)"와 "노무자(숙련)"만 있는 경우, 보고서 인증 전에 분류를 명확히 해야 합니다.
주간 근로자 ID 일관성. 1주차에 SSN 끝자리 4321로 나타난 근로자가 3주차에 SSN 끝자리 8765로 나타나는 경우(동일 이름, 동일 계약자)는 데이터 입력 오류 또는 최악의 경우 유령 직원을 나타내는 위험 신호입니다. 여러 주에 걸친 추출 데이터를 피벗 테이블로 만들어 ID 이상 징후를 표시할 수 있습니다.
CWHSSA 초과 근무 확인. 해당 주에 총 40시간을 초과한 모든 근로자에 대해 초과 근무 요율이 6A열에 입력된 기본 요율의 최소 1.5배인지 확인합니다. CWHSSA는 $100,000를 초과하는 모든 기본 계약에 적용되며, 초과 근무 위반 시 차액뿐만 아니라 전체 초과 근무 미지급액에 해당하는 액체 손해배상금이 포함됩니다.
추출의 규정 준수 가치는 데이터를 더 빨리 읽는 것이 아니라 데이터를 계산 가능하게 만드는 데 있습니다. 15개 하청업체 PDF 더미는 정렬, 필터링 또는 수식 검사가 불가능합니다. 추출된 필드가 있는 스프레드시트는 몇 가지 수식을 작성하는 시간 안에 검증할 수 있습니다.
수기 WH-347 양식, 특별 관리가 필요한 경우
연방 프로젝트 건설 인력의 상당 부분을 소규모 하청업체가 차지하며, 이들 중 상당수는 WH-347을 수기로 작성합니다. 미국 건설업자 협회(AGC)의 2023년 조사에 따르면, 직원 20명 미만 건설 회사의 40% 이상이 여전히 수동 또는 기본 스프레드시트 소프트웨어로 급여 기록을 준비합니다. 전용 급여 시스템이나 최저 임금 모듈 없이 종이와 펜만 사용하는 것입니다.
수기로 작성된 인증 급여 보고서는 진정한 추출 과제를 제시합니다. AI는 필기 OCR 문제 및 해결 방법 가이드에 설명된 대로 대부분의 필기체(필기체 및 숫자 입력 포함)를 읽을 수 있습니다. 하지만 좁은 칸에 쓰인 작업 분류와 "32.5" 또는 "32.8"로 보이는 요율(실제 값이 $32.57인 경우)은 규정 준수 제출이 감당할 수 없는 불확실성을 출력에 수반하는 사례입니다.
실용적인 접근 방식: 추출을 사용하여 데이터의 80-90%를 자동으로 구조화된 테이블에 넣습니다. 그런 다음 수기 입력 항목(특히 요율 필드, 분류 코드, 준수 진술서의 수기 서명(29 CFR 3.3(b)에 따라 원본 서명이어야 하며 복사본이 아님))을 한 줄씩 검토합니다. 스팟 체크 검증 워크플로우는 이 단계를 위한 프레임워크를 제공합니다. 추출을 통해 15개의 전자 보고서를 다시 입력하는 수고를 덜 수 있습니다. 수동 검토는 오류 위험이 가장 높은 2-3개의 수기 제출물에 집중하게 합니다.
기록 보관: 추출된 데이터는 3년간 보존되어야 합니다
29 CFR 3.4는 계약자가 원계약의 모든 작업이 완료된 후 최소 3년 동안 인증된 급여 기록을 보존하도록 요구합니다. 이는 권고 사항이 아닙니다. DOL 감사는 정기적으로 3년 전까지 소급하며, 누락된 기록은 그 자체로 규정 위반으로 간주되며, 누락된 기록이 밝혀냈을 수 있는 임금 위반과는 별개로 처리됩니다.
추출이 구조화된 스프레드시트로 이어질 때, 데이터가 이미 보존 가능한 형식이므로 기록 보관 요구 사항을 충족하기가 더 쉬워집니다. 각 배치 내보내기에는 향후 감사 대비를 지원하기 위해 문서 보존 요구 사항 가이드에서 더 자세히 다루는 다음 메타데이터가 포함되어야 합니다:
- 배치 이름 및 처리 날짜 (원본 업로드 문서에 연결)
- 각 행의 하청업체 이름 및 급여 기간
- 추출된 요율이 확인된 임금 결정 번호
- 검토 중 수동 수정 사항에 대한 메모 열
DOL 감사관은 원본 WH-347 양식과 요약 데이터를 모두 보고자 할 것입니다. 추출은 원본을 대체하지 않습니다. 원시 문서와 규정 준수 제출 간의 감사 추적을 생성합니다.
자주 묻는 질문
손으로 작성된 WH-347 스캔본에서 공사 임금 데이터를 추출할 수 있나요?
일반적으로 가능하지만, 손으로 쓴 요율 수치와 분류 코드는 규정 준수 제출에 사용하기 전에 줄별로 확인해야 합니다. AI 비전 모델은 필기체를 포함한 손글씨를 읽지만, WH-347의 좁은 셀에 빽빽하게 적힌 필기는 결과가 모호할 수 있습니다. 실용적인 워크플로는 자동으로 추출한 후, 임금 준수에 가장 직접적인 영향을 미치는 작업자당 2~3개 항목(기본 요율, 수당 요율, 분류)을 수동 검토 우선순위로 지정하는 것입니다.
하청업체가 전에 본 적 없는 형식을 사용하면 어떻게 하나요?
이것이 바로 Custom Column Extraction이 해결하도록 설계된 문제입니다. 템플릿을 인식하는 대신 각 열의 의미를 이해하여 문서를 읽기 때문에 처음 보는 형식도 바로 처리할 수 있습니다. 샘플을 학습시키거나 템플릿을 만들 필요가 없습니다. 하청업체가 Sage 대신 Foundation 내보내기 파일을 처음 보내도 AI는 동일한 열 이름을 사용하여 읽습니다.
같은 주에 여러 분류로 작업한 근로자도 추출이 가능한가요?
네, 하청업체 양식에 근로자가 분류별로 별도 행에 표시되어 있으면 가능합니다. AI는 문서에서 찾은 행 구조를 유지합니다. 단일 WH-347 행에 두 가지 분류와 합산 시간이 함께 기재된 경우(일부 하청업체가 잘못하는 방식), 추출 시 자동으로 나누지 않고 검토 플래그를 지정합니다. 규정 준수 제출에는 정확한 내역이 필요하기 때문입니다.
주(state) 수준의 "리틀 데이비스-베이컨" 양식에도 사용할 수 있나요?
동일한 Custom Column Extraction 방식이 캘리포니아(DIR), 뉴욕(DOL), 뉴저지, 펜실베이니아, 일리노이 등 자체적인 공사 임금법이 있는 25개 주의 주 정부 공사 임금 양식에도 적용됩니다. 열 정의는 동일합니다(근로자 식별, 분류, 시간, 요율, 총액, 공제액). AI는 각 주 양식의 특정 레이아웃에 적응합니다. 다만, 주 양식에는 고유한 필드(예: 캘리포니아의 DLSE 인증 임금 명세서)가 있는 경우가 많으므로 추가 열 이름으로 추가해야 할 수 있습니다.
추출된 데이터에 3년 기록 보관 요건이 어떻게 적용되나요?
29 CFR 3.4에 따라, 원본 인증 급여 기록(WH-347 양식 자체)은 프로젝트 완료 후 최소 3년간 보존해야 합니다. 추출된 스프레드시트는 보조 자료일 뿐 대체 자료가 아닙니다. 감사관이 요약 데이터에서 원본 문서까지 추적할 수 있도록, 추출 결과물을 원본 업로드 문서와 함께 프로젝트 폴더에 배치 날짜 및 임금 결정 번호로 태그하여 보관하는 것이 좋습니다.
인증 급여 데이터 추출과 LCPtracker 같은 규정 준수 소프트웨어 사용의 차이점은 무엇인가요?
LCPtracker, eCOMM 및 유사 플랫폼은 제출 포털입니다. 원계약자로부터 인증 급여 데이터를 받아 발주 기관에 전달합니다. 이들은 다양한 형식의 하도급업체 보고서를 읽는 업스트림 데이터 추출 문제를 해결하지 못합니다. 추출 도구는 "하도급업체 보고서 더미"와 "제출 준비가 된 데이터" 사이의 간극을 메웁니다. 많은 원계약자가 추출로 데이터를 취합한 후 포털에 제출하는 두 가지를 모두 사용합니다.
추출에서 제출까지
데이비스-베이컨 법에 따른 인증 급여 규정 준수는 더 간단해지지 않을 것입니다. 2023년 규정 업데이트는 "건물 또는 공사"의 정의를 광대역 설치, 전기차 충전 인프라, 태양광 패널 건설로 확대하여 새로운 계약자 집단을 데이비스-베이컨 시스템에 포함시켰습니다. 2026년 9월부터 시행되는 WH-347 개정안은 견습 추적 필드와 더 엄격한 부가급여 보고 요건을 추가합니다. 더 많은 프로젝트, 더 많은 하도급업체, 매주 추출해야 할 더 많은 데이터가 생깁니다.
원계약자의 급여 관리자가 직면한 질문은 규정 준수 요건이 타당한지 여부가 아닙니다. 매주 15개의 보고서를 15가지 형식으로 열고, 동일한 필드를 제출 템플릿에 다시 입력하고, 매번 동일한 산술을 확인하는 데이터 취합 작업이 연방 공사의 불가피한 비용인지, 아니면 추출로 해결할 수 있는 프로세스 격차인지입니다.
답변은 하도급업체 보고서의 데이터가 PDF와 스캔본 안에 갇혀 있느냐, 아니면 규정 준수 서명 전에 자동 검사를 실행할 수 있는 스프레드시트에서 계산 가능하고(추출 가능, 정렬 가능, 검증 가능) 해지느냐에 달려 있습니다.