下請け業者の認定給与報告書を
デイビス・ベーコン遵守のために抽出する方法
15社の下請け業者が関わる連邦高速道路プロジェクトでは、ゼネコンの給与管理担当者は毎週、データ収集作業に追われる。この作業はデイビス・ベーコン規則の理解とは無関係で、15種類の異なる形式で届く15の書類からデータを抽出する機械的な作業に過ぎない。ある業者はSage 300 CREのエクスポートを送ってくるが、その列はWH-347のグリッドと一致しない。別の業者はQuickBooksのPDFをメールで送る。3社目は2人体制の土木業者で、手書きで記入し、スキャンしてJPEGで送ってくる。コンプライアンスに関する知識はある。問題は抽出プロセスにある。
重要ポイント
- テンプレートベースのOCRは固定フォームレイアウトを必要とするが、15社の下請け業者は15種類の異なる形式で報告書を送ってくる。
- 小規模な下請け業者は給与ソフトを変更するたびに報告書形式を変え、形式変更のたびに新たな抽出テンプレートをゼロから作成する必要がある。
- セマンティック抽出は、WH-347のフィールドを画面上の位置ではなく意味で読み取るため、設定不要で初回からあらゆる形式に対応できる。
WH-347データ抽出が通常の給与抽出と異なる理由
標準的な給与データ抽出では、給与明細やタイムシートから従業員名、総支給額、手取り額を取得します。必要な情報が帳票の印字項目と一対一で対応するため、抽出は単純です。しかし、デービス・ベーコン法(40 U.S.C. §3141 et seq.)に基づく認定賃金には3つの構造的な複雑さがあり、抽出を本質的に困難にしています。
第一に、同一労働者が同一週に複数の職種区分で働く場合があることです。大工が月曜から水曜まで型枠工事、木曜から金曜まで乾式壁工事を行った場合、WH-347ではその労働者に対して、それぞれの区分と該当する prevailing wage 率で別々の行を記載する必要があります。「労働者名」と「総時間数」だけを読み取る抽出ツールでは、この重要な区別を見落とし、各区分に異なる基本賃金率と福利厚生費の配分が必要なため、コンプライアンス提出は誤ったものになります。
第二に、賃金率構造に別々に追跡すべき2つの要素があることです。デービス・ベーコン法の prevailing wage は、基本時給と福利厚生費率で構成されます。請負業者は、適格な福利厚生制度(年金、健康保険、職業訓練)への拠出、または労働者への現金直接支払いのいずれかで福利厚生費の義務を果たします。WH-347の列6Aは基本賃金率、列6Bは労働者一人当たりの福利厚生費総額、列6Cは現金代替支払額を記録します。抽出ではこれら3つすべてを保持する必要があります。なぜなら、「各労働者が福利厚生費を含む prevailing wage を少なくとも受け取ったか」というコンプライアンス上の問いは、これらの要素を分離して初めて回答できるからです。
第三に、契約労働時間・安全基準法(CWHSSA)に基づく時間外労働ルールが検証の側面を追加することです。対象契約における週40時間を超える労働時間は、基本賃金率の1.5倍で支払う必要があります。WH-347では列4を各日の通常時間と時間外労働に分割しています。「総時間数」のみを読み取り、通常時間/時間外労働の内訳を読み取らない抽出では、DOL監査人が実施するコンプライアンス検証(時間外労働が正しい時間数に対して正しい率で計算されたか)をサポートできません。
これら3つの構造的特徴(複数職種区分の行、二重賃金率の福利厚生費追跡、必須の通常時間/時間外労働内訳)により、認定賃金の抽出は単なる「帳票から数字を読み取る」作業として扱うことはできません。抽出では、フィールド値そのものだけでなく、フィールド間の関係性も保持する必要があります。
コンプライアンス検証を支えるWH-347の主要データ項目
抽出方法を選ぶ前に、コンプライアンス判断に使われるWH-347上の具体的なデータ項目を把握しておくと役立ちます。このフォームは、作業員1人あたり分類行ごとに約18のデータ項目を収集しますが、監査で特に重要なのは以下の7つです。
| WH-347フィールド | 列 | コンプライアンス上の重要性 |
|---|---|---|
| 作業員ID(SSN下4桁) | 1E | 毎週一貫している必要あり。異なるIDで再出現すると警告対象。 |
| 職種分類 | 3 | プロジェクトの賃金決定の分類と一致必須。誤分類はDBRA違反で最多。 |
| 通常/時間外労働時間(日別×7日) | 4 | CWHSSAにより時間外は基本給の1.5倍。日別内訳で入退場記録と照合可能。 |
| 総労働時間 | 5 | 日別時間の合計。通常+時間外と一致必須。計算誤差が全項目に波及。 |
| 基本給 + 福利厚生控除 | 6A / 6B | 基本給+福利厚生控除≧該当職種の prevailing wage。監査対策に両方の値が必要。 |
| 総支給額 | 7A | (通常時間×基本給)+(時間外時間×時間外給)+福利厚生控除に近似。許容誤差±1%。 |
| 控除(FICA、税金、その他) | 8 | 29 CFR Part 3に準拠必須。認可されていない控除(工具、制服等)はDOL承認が必要。 |
最も重要な検証関係は、列5、6A、6B、7Aの相互チェックです。総労働時間×賃金率+福利厚生控除が総支給額と丸め誤差範囲内で一致する必要があります。抽出で7つの項目すべてが独立して保持されれば、この検証は手動再計算ではなく自動チェックになります。しかし、抽出で分類が統合されたり、通常/時間外の区分が失われたりすると、検証は機能しなくなり、閉じたはずのコンプライアンスギャップが残ったままになります。
下請け業者のフォーマット問題は、コンプライアンス問題ではなくデータ問題である
既存の記事「認定給与が中小請負業者にとって手作業の悪夢である理由」では、元請け業者の厳格責任、3年間の監査期間、1億2000万人の労働者を担当する611人の調査官といった構造的なコンプライアンスの課題が詳細に説明されています。しかし、それとは別に、より狭く機械的なボトルネック、すなわちフォーマット問題についても取り上げる価値があります。
15の下請け業者がそれぞれ異なる形式で認定給与データを送ってきた場合、元請け業者のデータ抽出作業はコンプライアンス知識の問題ではありません。それは書類を読み解く問題です。各フォーマットには、労働者名、職種、時間数、賃率、総支給額、控除額、手取り額といった同じ必須項目が含まれていますが、その配置、ラベルは異なり、項目が完全に欠落していることもあります(その場合、元請けは7日間の提出期限が迫る中、不足しているフリンジ給付の書類を追跡する必要があります)。
テンプレートベースのOCRツールはここでは機能しません。これらのツールは、固定されたフォームレイアウト上の各フィールドの周りに矩形を描く必要があります。A社の報告書では「賃率」が右上隅にあるのに、B社の報告書ではページ中央の列見出しにある場合、テンプレートは機能しません。下請け業者のフォーマットごとに個別のテンプレートが必要になりますが、小規模な下請け業者は給与ソフトや会計事務所を変更するたびに報告フォーマットを変えることが多く、それは頻繁に発生します。
Procore、Viewpoint Vista、Sage 300 CRE、hh2などの専用コンプライアンスソフトウェアを使用している建設会社は、タイムエントリデータから自社の認定給与報告書を直接生成できます。しかし、下請け業者が返送するフォーマットを制御することはできません。フォーマット問題は元請けと下請けの境界に位置し、本質的に抽出の問題です。つまり、あらゆる受信文書フォーマットからデータを読み取り、それを単一の標準構造にマッピングする方法の問題です。
フォーマット問題は、必要なデータを知ることではなく、機械による読み取りを想定して設計されていない文書からそのデータを読み取ることです。すべての下請け業者の報告書には、同じコンプライアンス上重要な項目が含まれています。難しいのは、各報告書がそれらの項目を異なる視覚的レイアウトに埋め込んでいることです。
AI意味抽出で認定給与レポートを抽出する方法
これは、テンプレート不要のAI文書抽出に関する記事で詳述されている「カスタム列抽出」と呼ばれるアプローチであり、認定給与のデータ集約ワークフローを変革します。
カスタム列抽出は、出力から逆算して機能します。文書のレイアウトを分析し、フィールドごとに抽出ルールを定義する代わりに、最終的な表に必要な列(「作業員名」「分類」「基本時給」「フリンジ時給」「標準時間」「残業時間」「総支給額」)をAIに指示します。AIは各下請け業者のレポートを読み取り、値の意味を理解して対応する値を特定し、正しい列に配置します。各下請け業者のフォームのレイアウトは無関係です。AIはピクセル座標ではなく、意味に基づいてマッチングを行うからです。
認定給与抽出ワークフローは次のとおりです。
作業員名, 社会保障番号下4桁, 分類, 基本時給, フリンジ時給, 標準時間, 残業時間, 総時間, 総支給額, 控除額, 手取り額。AIはこれらの名前を意味的なターゲットとして使用します。下請け業者名とバッチ名の列が含まれ、すべてのデータを元の文書に遡って追跡できます。実際の認定給与文書で試してみてください。下請け業者のWH-347をアップロードし、上記の列名を入力するだけで、設定不要で抽出が実行されます。
ファイルは安全に処理され、保存されることはありません。
抽出データの自動コンプライアンスチェック
データが構造化されたスプレッドシートに抽出されると、コンプライアンス検証は手動チェックから一連の自動検証へと移行します。抽出された列は単一のテーブルとなり、DOL監査人が行うであろうチェックを、15社すべての下請け業者に対して数分で実行できます。
時間×レートの整合性確認。 最も基本的なコンプライアンスチェック:各作業員の総額が(標準時間×基本レート)+(残業時間×基本レート×1.5)+フリンジ控除と一致するか?15人の作業員レポートの場合、手計算では15回の計算が必要です。抽出された列があるスプレッドシートでは、1つの数式を行全体にドラッグするだけです。差異が1%を超える行はすべてフラグを立て、提出前に調査します。
職種分類と賃金決定の照合。 抽出された各職種分類を、SAM.govの該当する賃金決定に記載されている分類と比較します。下請け業者が作業員を「一般労働者」と報告しているが、賃金決定に「労働者(共通)」と「労働者(熟練)」が異なるレートでしか記載されていない場合、報告書の認定前に分類の明確化が必要です。
週をまたぐ作業員IDの一貫性確認。 第1週にSSN下4桁4321で現れ、第3週にSSN下4桁8765で現れる作業員(同じ名前、同じ業者)は、データ入力エラー、または最悪の場合、架空従業員の危険信号です。週をまたいだ抽出データをピボットテーブル化することで、IDの異常をフラグできます。
CWHSSA残業検証。 週の総労働時間が40時間を超えたすべての作業員について、列6Aに入力された基本レートの少なくとも1.5倍に等しい残業レートが入力されていることを確認します。CWHSSAは10万ドルを超えるすべての一次契約に適用され、残業違反の罰則には、差額だけでなく残業代未払い額全額に相当する遅延損害金が含まれます。
抽出のコンプライアンス価値は、データをより速く読むことではなく、データを計算可能にすることにあります。 15社の下請け業者PDFの山は、並べ替え、フィルタリング、数式チェックができません。抽出されたフィールドがあるスプレッドシートは、いくつかの数式を書くだけで検証できます。
手書きWH-347様式への特別な注意
連邦プロジェクトの建設現場では、小規模な下請け業者が労働力のかなりの部分を占めており、その多くがWH-347を手書きで記入しています。全米建設業者協会が2023年に実施した調査によると、従業員20人未満の建設会社の40%以上が、現在も手作業または基本的な表計算ソフトで給与記録を作成しています。専用の給与システムや賃金モジュールはなく、紙とペンだけです。
手書きの認定給与報告書は、真の抽出課題をもたらします。AIは、手書き文字OCRの問題と解決策に関するガイドに記載されているように、筆記体や数字の記入を含むほとんどの手書き文字を読み取ることができます。しかし、狭い枠に詰め込まれた職種分類や、「32.5」や「32.8」(実際の値が32.57ドルの場合)のように見えるレートの数字は、コンプライアンス提出では許容できない不確実性を出力に伴うケースです。
現実的なアプローチ:抽出機能を使用して、データの80~90%を自動的に構造化テーブルに取り込みます。その後、手書きの記入項目、特にレートフィールド、分類コード、およびコンプライアンス声明書の手書き署名(29 CFR 3.3(b)に従い、コピーではなく原本の署名である必要があります)を1行ずつ確認します。スポットチェック検証ワークフローは、この段階の枠組みを提供します。抽出により、15件の電子報告書を再入力する手間が省けます。手動レビューでは、エラーリスクが最も高い2~3件の手書き提出物に注意を集中します。
記録保存:抽出データは3年間保持する必要があります
29 CFR 3.4は、請負業者に対し、元請け契約の全作業完了後、少なくとも3年間、認定給与記録を保存することを義務付けています。これは提案ではありません。DOLの監査は定期的に3年前まで遡り、記録の欠落は、欠落した記録によって明らかになった可能性のある賃金違反とは別に、それ自体がコンプライアンス違反として扱われます。
抽出データが構造化されたスプレッドシートに取り込まれる場合、データはすでに保存可能な形式になっているため、記録保存要件を満たすことが容易になります。各バッチエクスポートには、将来の監査対応をサポートするために、以下のメタデータを含める必要があります(詳細は文書保存要件ガイドで説明しています)。
- バッチ名と処理日(元のアップロード文書にリンク)
- 各行の下請け業者名と給与期間
- 抽出レートが照合された賃金決定番号
- レビュー中に行われた手動修正のためのメモ欄
DOL監査官は、元のWH-347様式と要約データの両方を確認したいと考えます。抽出は原本に代わるものではなく、生の文書とコンプライアンス提出物の間の監査証跡を作成します。
よくある質問
手書きのWH-347をスキャンしたものから、認定された給与データを抽出できますか?
一般的には可能ですが、手書きのレート数値と分類コードは、コンプライアンス提出に使用する前に1行ずつ確認する必要があります。AIビジョンモデルは筆記体を含む手書き文字を読み取りますが、WH-347の小さなグリッドセルに詰め込まれた手書き文字は、あいまいな結果を生む可能性があります。実用的なワークフローとしては、自動抽出後、賃金コンプライアンスに最も直接影響する作業者ごとの2~3項目(基本賃金率、フリンジ給与率、分類)を優先的に手動レビューすることをお勧めします。
下請け業者がこれまで見たことのない形式を使用している場合はどうすればよいですか?
それがまさに、カスタム列抽出が解決するように設計された問題です。テンプレートを認識するのではなく、各列の意味を理解して文書を読み取るため、初めての形式でも対応できます。サンプルでトレーニングしたり、テンプレートを作成したりする必要はありません。下請け業者がSage出力の代わりにFoundation出力を送ってきた場合でも、AIは同じ列名を使用して読み取ります。
同じ週に複数の分類を持つ作業者の抽出は可能ですか?
はい、下請け業者のフォームで作業者が分類ごとに別々の行に表示されている限り可能です。AIは文書上の行構造を保持します。1つのWH-347行に2つの分類と合計時間が記載されている場合(一部の下請け業者が誤って行うことがあります)、抽出はその行を黙って分割するのではなく、レビュー用にフラグを立てます。コンプライアンス提出には正確な内訳が必要だからです。
州レベルの「リトル・デービス・ベーコン」フォームにも使用できますか?
同じカスタム列抽出アプローチは、カリフォルニア州(DIR)、ニューヨーク州(DOL)、ニュージャージー州、ペンシルベニア州、イリノイ州、および他の25の州の州 prevailing wage フォームでも機能します。列定義は同じです — 作業者識別、分類、時間、レート、総額、控除。AIは各州のフォームの特定のレイアウトに適応します。ただし、州のフォームには固有のフィールド(カリフォルニア州のDLSE認定給与など)があることが多く、それらを追加の列名として追加する必要がある場合があります。
3年間の記録保存義務は抽出データにどのように適用されますか?
29 CFR 3.4に基づき、原本の認定給与記録(WH-347フォーム自体)は、プロジェクト完了後少なくとも3年間保存する必要があります。抽出したスプレッドシートは補足的なものであり、原本の代わりにはなりません。ベストプラクティスとしては、抽出結果を元のアップロード書類と一緒にプロジェクトフォルダに保存し、バッチ日付と賃金決定番号をタグ付けすることで、監査人がサマリーデータから元の書類まで追跡できるようにすることです。
認定給与データの抽出と、LCPtrackerのようなコンプライアンスソフトウェアの使用の違いは何ですか?
LCPtracker、eCOMM、および類似のプラットフォームは提出ポータルです。これらは元請け業者から認定給与データを受け取り、契約機関に送信します。しかし、異なる形式の下請け業者報告書を読み取るという上流のデータ抽出問題は解決しません。抽出ツールは、「下請け業者からの報告書の山」と「提出可能なデータ」の間のギャップを埋めます。多くの元請け業者は、データをまとめるために抽出ツールを使用し、提出のためにポータルを使用するという両方の方法を採用しています。
抽出から提出へ
デービス・ベーコン法に基づく認定給与コンプライアンスは、今後も簡素化されることはないでしょう。2023年の規制改正により、「建物または工事」の定義が拡大され、ブロードバンド設置、電気自動車充電インフラ、太陽光パネル建設が含まれるようになり、新たな請負業者がデービス・ベーコン制度の対象となりました。2026年9月に施行されるWH-347の改訂では、見習い訓練の追跡項目と、より厳格な福利厚生報告要件が追加されます。より多くのプロジェクト、より多くの下請け業者、毎週抽出すべきより多くのデータ。
元請け業者の給与管理担当者にとっての問題は、コンプライアンス要件が理にかなっているかどうかではありません。毎週のデータ収集作業(15の異なる形式の報告書を開き、同じ項目を提出用テンプレートに再入力し、毎回同じ計算を確認すること)が、連邦事業を行う上で避けられないコストなのか、それとも抽出によって解消できるプロセスのギャップなのか、ということです。
その答えは、下請け業者の報告書のデータがPDFやスキャンに閉じ込められたままになるか、それとも計算可能になり、抽出、並べ替え、検証が可能なスプレッドシートとなり、コンプライアンス声明書に署名する前に自動チェックを実行できるかどうかにかかっています。