운송 및 화물 문서 추출
완벽 가이드
단 한 건의 국경 간 화물 운송에는 5~7개의 문서가 생성됩니다. 선하증권, 화물 적하목록, 포장 명세서, 상업 송장, 원산지 증명서, 운임 청구서, 그리고 때로는 인도 증명서까지 말이죠. 각 문서는 서로 다른 당사자(운송사, 포워더, 창고업자, 수출업자)가 서로 다른 목적(운송 계약, 화물 재고, 통관 평가, 청구)을 위해 설계했습니다. 하지만 추출 시점에는 이 데이터가 반드시 일치해야 합니다. 포장 명세서의 품목 수량은 선하증권의 수량과 일치해야 하고, 상업 송장의 HS 코드는 적하목록에 신고된 내용과 같아야 하며, 문서 꾸러미 내 모든 문서의 컨테이너 번호는 동일해야 합니다. 이것이 바로 운송 문서 추출의 근본적인 과제입니다. 단일 문서를 읽는 것이 아니라, 모든 문서를 함께 읽어 공유 필드가 일치하도록 하는 것입니다. 이 가이드에서는 각 운송 문서가 담고 있는 정보, 다른 문서와 데이터가 중복되는 부분, 그리고 전체 문서 꾸러미를 하나의 통합 데이터셋으로 추출하는 방법을 다룹니다.
선적 문서 생태계 — 다섯 가지 문서, 하나의 선적
데이터 추출을 시작하기 전에, 물류 팀은 추출 대상 문서와 문서 간의 관계를 파악해야 합니다. 일반적인 FCL(만재 컨테이너) 해상 선적에서는 다음과 같은 5가지 핵심 문서가 생성됩니다.
| 문서 | 발행처 | 주요 목적 | 공통 필드 |
|---|---|---|---|
| 선하증권(BOL) | 운송사 또는 포워더 | 운송 계약 + 권리 증서 | 컨테이너 번호, 항구 코드, 송하인/수하인, 중량, 개수 |
| 화물 적하목록 | 운송사 또는 선박 대리점 | 해당 항해의 전체 화물 목록 | BOL 번호, 컨테이너 번호, HS 코드, 총중량, 패키지 개수 |
| 패킹 리스트 | 송하인 / 수출자 | 화물의 품목별 세부 내역 | 컨테이너 번호, PO 번호, 품목 설명, 수량, 순/총중량, 규격 |
| 상업 송장 | 수출자 / 판매자 | 세관 평가 + 지불 기록 | HS 코드, 인코텀즈, 총 금액, 원산지, 선적 참조 번호 |
| 운임 송장 | 운송사 | 운송 서비스에 대한 청구 | BOL 번호, 컨테이너 번호, 요금, 추가 비용, 지불 조건 |
공통 필드 문제는 즉시 드러납니다. 컨테이너 번호는 BOL, 적하목록, 패킹 리스트, 운임 송장에 모두 나타납니다. BOL 번호는 적하목록, 상업 송장, 운임 송장을 연결합니다. 총중량은 BOL, 적하목록, 패킹 리스트에 명시되지만, 단위가 다른 경우가 많습니다(BOL은 kg, 패킹 리스트는 lb, 적하목록은 미터톤을 사용할 수 있음). 각 문서를 개별적으로 읽는 추출 방식은 서로 일치하지 않는 다섯 개의 데이터 세트를 생성합니다. 반면, 선적 서류 묶음 전체를 고려하여 설계된 추출 방식은 문서들을 함께 읽고 불일치 사항을 식별합니다.
의미론적 AI 추출이 이러한 문서를 기존 OCR과 어떻게 다르게 처리하는지 자세히 알아보려면 물류용 OCR 가이드와 AI OCR의 기본 개념을 참조하십시오.
선하증권 — 핵심 문서
선하증권은 선적 서류 중 법적으로 가장 복잡한 문서입니다. 화물 영수증, 운송 계약, 그리고 양도 가능한 형태의 경우 권리 증서의 역할을 동시에 수행합니다. 필드 수만 봐도 추출이 간단하지 않음을 알 수 있습니다. 일반 해상 BOL은 3-5페이지에 걸쳐 30-40개의 데이터 필드를 포함하며, 여러 국제 표준의 적용을 받습니다.
BOL 유형(직항 vs 해상 vs 복합운송, 마스터 vs 하우스), 추출 파이프라인, 검증을 심층적으로 다룬 BOL 데이터 추출 전용 종합 가이드를 게시했습니다. 여기서는 문서 간 패킷에서 중요한 부분, 즉 다른 모든 선적 문서가 참조하는 필드에 초점을 맞춥니다.
| 필드 | 예시 | 검증 기준 | 다른 문서에도 표시 |
|---|---|---|---|
| 컨테이너 번호 | MSCU 234781 6 | ISO 6346 — 영문자 4자리 + 숫자 7자리, 11번째 위치에 체크 디지트 | 매니페스트, 패킹 리스트, 운임 인보이스 |
| 씰 번호 | SH-789012 | 글로벌 표준 없음; 선사/터미널 할당 | 매니페스트, 패킹 리스트 |
| 적재항 / 양하항 | CN SHA / NL RTM | UN/LOCODE — 5자리(국가코드 2자리 + 지역코드 3자리) | 매니페스트, 상업 인보이스(경로 섹션) |
| SCAC 코드 | MAEU (머스크) | NMFTA — 선사 식별자 영문자 2-4자리 | 매니페스트(미국행 ACE 신고 시) |
| 총 중량 | 15,420 KGS | SOLAS Chapter VI Reg 2에 따른 VGM(검증된 총 중량) | 매니페스트, 패킹 리스트 |
| 개수 / 포장 유형 | 500 CTNS on 10 PLTs | NMFC / 업계 관행 | 매니페스트, 패킹 리스트 |
| HS 코드(품목) | 6305.33 | 세계관세기구 — 최소 6자리, 미국 수입 시 10자리 | 상업 인보이스, 매니페스트 |
SCAC 코드는 물류에서 가장 흔히 잘못 추출되는 필드이므로 자세히 살펴볼 가치가 있습니다. BOL에는 선사명이 "Maersk Line"으로 인쇄되어 있지만 TMS는 MAEU를 기대할 수 있습니다. 다른 선사는 참조 번호처럼 보이는 SCAC와 함께 이름을 나열할 수도 있습니다. 의미론적 AI 추출은 표준 코드 패턴(영문 대문자 2-4자리, 종종 선사명 또는 SCAC 레이블 근처에 위치)을 인식하여 전체 선사명과 별도의 필드로 추출함으로써 이를 처리합니다. 그러나 모든 추출 도구가 SCAC 코드를 찾도록 설계된 것은 아닙니다. 많은 도구가 선사 필드를 자유 텍스트로 처리하여 시스템에 MAEU가 필요할 때 "Maersk Line"을 출력합니다.
선적 라벨 및 데이터 포인트에 대한 필드 수준 정확도 분석은 관련 기사 AI가 선적 라벨 및 매니페스트 데이터를 추출할 수 있을까?를 참조하십시오.
화물 적하목록 — 선적 단위 재고 목록
화물 적하목록은 선박, 트럭, 항공기 또는 기차에 적재된 모든 선적 화물의 전체 목록입니다. 단일 선적 계약인 BOL과 달리, 적하목록은 다중 선적 재고 목록으로 주로 세관 당국, 항만 운영자 및 터미널 핸들러가 사용합니다.
해상 적하목록은 일반적으로 선박 내 각 BOL당 한 행으로 구성되며, 주요 항목은 다음과 같습니다:
- 마스터 BOL 번호 — 통합 선적을 포괄하는 운송사 발행 BOL
- 하우스 BOL 번호 — 해당되는 경우 각 하주에 대한 포워더 발행 BOL
- 컨테이너 번호 — 각 BOL과 연계된 모든 컨테이너
- 품목 설명 — 종종 약칭 또는 그룹화됨 (예: 통합 컨테이너의 경우 "일반 백화점 상품")
- HS 코드 — 세관용 6~10자리 분류 코드
- 총 중량 및 부피 — BOL별 합계
- 적재항 및 양륙항 — UN/LOCODE 형식
- 송하인 및 수하인 — 이름 및 주소
- 선박명 및 항차 번호 — 해상 적하목록용
적하목록의 형식 문제는 근본적으로 다른 두 가지 구조로 제공된다는 점입니다. 미국행 선적을 위한 CBP 준수 ACE 적하목록은 CBP 1301(입항 화물 적하목록) 또는 CBP 1302(출항) 형식을 따르며, ISF 신고에 필요한 특정 필드가 있습니다. 포워더가 내부적으로 사용하는 상업 적하목록은 완전히 다른 레이아웃을 사용하여 BOL별이 아닌 컨테이너별로 필드를 그룹화할 수 있습니다. 항공 화물 적하목록(AWB 적하목록)은 해상 적하목록과 다른 헤더 구조(선박명 대신 항공편 번호, MBL/HBL 대신 MAWB/HAWB)를 사용합니다.
추출의 과제는 적하목록 데이터가 컨테이너 수준에서 BOL 데이터와 일치해야 한다는 점입니다. 적하목록에 컨테이너 MSCU 234781 6에 500개의 카톤이 있다고 표시되고 BOL에는 480개라고 표시되면, 그 20개 차이는 적하목록 입력 오류이거나 BOL 오류이며 세관이나 수하인에게 지적됩니다. 두 문서를 모두 읽고 처리 중 공유 필드를 비교하는 의미론적 추출은 이러한 불일치가 세관 보류로 이어지기 전에 포착합니다.
패킹 리스트 — 품목별 상세 내역
패킹 리스트는 선적 서류 중 가장 세분화된 문서입니다. BOL이 총 중량과 총 개수만 표시하는 반면, 패킹 리스트는 각 패키지 안에 무엇이 들어 있는지 — 카톤별, 팔레트별로 상세히 기재합니다. LCL(컨테이너 미만 적재) 선적의 경우, 패킹 리스트는 포워더가 여러 화주의 화물을 통합하는 방법을 알려주는 문서입니다.
표준 패킹 리스트 항목은 다음과 같습니다:
| 항목 그룹 | 항목 | 추출 참고사항 |
|---|---|---|
| 선적 식별자 | 패킹 리스트 번호, PO 번호, 인보이스 번호, BOL 번호, 컨테이너 번호 | PO 번호는 중요합니다 — 패킹 리스트를 구매 주문서 및 상업 인보이스와 연결하는 교차 참조 키입니다 |
| 당사자 정보 | 송하인, 수하인, 통지처, 수출자 | BOL과 일치해야 함; 불일치는 선적 중 포워딩 지시 변경을 시사함 |
| 패키지 수준 세부사항 | 카톤/팔레트 마크 및 번호, 패키지 유형(CTN, PLT, BNDL), 패키지 수 | 패키지 마크는 종종 수기 또는 스탬프로 표시됨 — 패킹 리스트 추출에서 오류율이 가장 높은 항목 |
| 품목 수준 세부사항 | 품목 설명, HS 코드, 패키지당 수량, 측정 단위(PCS, KGS, LBS), 순중량, 패키지당 총중량 | 패킹 리스트의 품목 설명은 BOL보다 상세함 — "여성용 코튼 니트 스웨터, 혼합 색상" vs BOL의 약어 "여성 스웨터" |
| 치수 | 패키지당 가로 × 세로 × 높이, 총 입방 용적 | 형식이 매우 다양함: "48x40x36 in" 또는 "120x100x90 cm" 또는 단일 CBM 숫자. 용적 중량 계산(미국 국내 DIM 계수 139, 국제 6000)은 이를 정확히 파악하는 데 달려 있음 |
패킹 리스트가 품목 수준의 진실 문서로서의 역할은 선적에서 가장 중요한 교차 문서 검증 중 하나인 수량 조정의 기준이 됨을 의미합니다. 상업 인보이스에는 개당 $12.50에 2,000개라고 명시되어 있습니다. 패킹 리스트에는 50개씩 40카톤에 2,000개라고 명시되어 있습니다. BOL에는 40카톤이라고 명시되어 있습니다. 이 숫자 중 하나라도 일치하지 않으면 세관 중개인은 어떤 문서를 신뢰할지 결정해야 하며 — 세 문서를 모두 읽는 추출 도구는 단일 조정 열에서 불일치를 플래그할 수 있습니다.
패킹 리스트 형식은 놀라울 정도로 다양합니다. 제조업체의 패킹 리스트는 컨테이너당 50개 라인 항목이 있는 여러 페이지의 Excel 내보내기 파일일 수 있습니다. 포워더의 하우스 패킹 리스트는 동일한 정보를 상품당 한 행으로 압축할 수 있습니다. 통합 컨테이너 패킹 리스트는 여러 구매 주문을 단일 컨테이너에 매핑해야 합니다 — 이는 라인 항목 경계가 PO 경계를 넘나들기 때문에 기존 OCR 도구가 어려워하는 형식입니다.
상업송장 — 관세 평가 서류
상업송장은 관세 당국이 관세와 세금을 산정하는 데 사용하는 서류입니다. 포장명세서(물리적 화물 중심)나 선하증권(운송 중심)과 달리, 상업송장은 가치에 관한 것입니다: 무엇이 얼마에, 어떤 무역 조건으로, 어디서 원산지인지가 기록됩니다.
서식 구조는 일반 판매 송장과 유사하지만, 국제 무역에 특화된 항목이 추가됩니다:
- 매도인과 매수인 — 이름과 주소(제3자 물류 업체가 개입된 경우 선하증권의 송하인/수하인과 다를 수 있음)
- 송장 번호 및 발행일 — 수출업체의 참조 번호로, 포장명세서와 상호 참조되는 경우가 많음
- 선적 참조 — 구매 주문 번호, 선하증권 번호, 컨테이너 번호, 예약 번호
- 품목 — 설명, HS 코드, 수량, 단가, 품목별 총 가치
- 인코텀즈 — 운임, 보험, 관세를 누가 부담하는지 결정하는 무역 조건(FOB 상하이, CIF 로테르담, EXW 공장, DDP 매수인 창고)
- 원산지 — 상품이 제조되거나 실질적으로 변형된 국가
- 총 신고 가액 — 관세 계산의 기준
- 통화 및 결제 조건 — USD, EUR, JPY; Net 30, T/T, L/C
상업송장의 HS 코드 추출은 특히 주의해야 합니다. 이 필드가 잘못되면 통관 지연이 발생할 가능성이 가장 높기 때문입니다. 6자리 HS 코드(HS 협약상 최소 단위)는 제품을 특정 장, 류, 소호로 분류합니다. HS 코드가 잘못되면 잘못된 관세율이 적용되거나, 코드가 설명과 일치하지 않아 상품이 검사 대상으로 지정될 수 있습니다. HS 코드를 단순한 영숫자 필드로 처리하는 추출 도구는 이를 WCO 분류의 첫 6자리와 대조하여 검증할 기회를 놓칩니다. HS 코드 패턴(XXXX.XX 또는 XXXXXX.XX)을 인식하고 이를 상품 설명과 교차 검증하는 의미론적 추출 설정은 세관 중개인이 보기 전에 이러한 오류를 잡아냅니다.
상업송장에는 가장 중요한 문서 간 참조 필드인 인코텀즈도 포함됩니다. 인코텀즈는 선하증권에서 운임이 선불인지 후불인지, 누가 보험을 준비하는지, 위험이 매도인에서 매수인으로 언제 이전되는지를 결정합니다. 상업송장에서 "FOB 상하이"를 읽고 선하증권에서 "운임 후불"을 읽으면서도 불일치(대부분의 운송사 해석에서 FOB는 후불)를 표시하지 않는 추출은 통관 시간을 낭비하는 조정 작업을 놓치게 됩니다.
화물 송장 및 배송 라벨
선적 서류 꾸러미를 완성하는 두 가지 추가 문서입니다.
화물 송장은 운송업체가 발행하는 운송 서비스 청구서입니다. BOL 번호와 컨테이너 번호를 참조하며, 운임 기본 요금, 유류 할증료, 섀시 임대료, 체화료, 지체료, 픽업 및 배송비, 추가 서비스 요금 등이 항목별로 기재됩니다. 화물 송장 데이터 추출의 어려움은 요금 자체를 읽는 것이 아니라, 각 요금을 올바른 BOL에 매칭하고 계약상 합의된 사항인지 확인하는 데 있습니다. 운송업체가 요청하지 않은 리프트게이트 서비스에 대해 250달러를 청구할 수도 있습니다. 화물 송장 데이터 추출은 AP팀이 운임 확인서나 예약 내역과 대조할 수 있도록 충분한 참조 데이터(BOL 번호, 컨테이너 번호, 날짜)를 보존해야 합니다. 추출 설정에서 계산된 열을 추가하여 운임 기본 요금을 알려진 계약 요율과 비교하고 5% 이상의 차이에 플래그를 지정하면, 수동적인 추출 결과물을 능동적인 감사 도구로 전환할 수 있습니다.
배송 라벨은 최종 배송 지점에서 사용됩니다. 운송업체가 인쇄한 라벨에는 추적 번호, 바코드, 발신자 및 수신자 주소, 서비스 등급, 패키지 중량, 참조 필드가 포함됩니다. 당사의 배송 라벨 및 화물 명세서 데이터 추출 관련 기사에서는 감열지 라벨, 잉크젯 라벨, 수기 수정본별 필드별 정확도를 분석합니다. 선적 서류 꾸러미 추출의 핵심은 배송 라벨의 추적 번호가 BOL 번호 또는 화물 명세서의 상호 참조와 일치해야 한다는 점입니다. 그렇지 않으면 해당 화물의 최종 배송 추적이 중단됩니다.
전체 선적 서류 꾸러미 일괄 처리
단일 BOL이나 포장 명세서를 읽는 것은 기본에 불과합니다. 효율성 향상은 전체 선적 문서 꾸러미(5개 이상의 문서)를 한 번의 작업으로 일괄 처리하고, 문서 간 필드를 동일한 출력 열에 매핑함으로써 얻을 수 있습니다.
일반적인 선적 서류 꾸러미 일괄 처리 워크플로우는 다음과 같습니다:
중량 일치? 열이나 개수를 교차 참조하는 수량 일치? 열 등이 있습니다. 결과는 단순히 추출된 데이터가 아니라 사전 감사된 선적 기록입니다.이 워크플로우는 일괄 우선 처리를 위해 설계된 방식입니다. 혼합 형식의 문서 5~15개를 업로드하고, 열 스키마를 한 번만 정의하면 검증 및 교차 참조된 단일 출력 테이블을 얻을 수 있습니다. 운송사별 템플릿 설정이나 문서 유형별 재구성이 필요하지 않습니다.
파일은 안전하게 처리되며 저장되지 않습니다.
필드 검증 — 원시 텍스트에서 TMS 준비 데이터로
유용한 추출 결과와 단순 텍스트 덤프의 차이는 검증 계층에 있습니다. 선적 문서는 내장된 검증 규칙이 있는 코드 시스템을 사용합니다. 이러한 규칙을 적용하는 추출 도구는 TMS나 통관 신고에 도달하기 전에 오류를 잡아냅니다.
| 코드 체계 | 형식 패턴 | 검증 규칙 | 오류 시 결과 |
|---|---|---|---|
| 컨테이너 번호 (ISO 6346) | AAAA-NNNNNN-N4자리 문자, 6자리 숫자, 1자리 검증 숫자 | 검증 숫자 알고리즘: 소유자 코드 × 위치 가중치, mod 11 | 운송사 추적 시스템이 번호를 거부함; 누군가 올바른 숫자를 다시 입력할 때까지 3일간 컨테이너가 "찾을 수 없음"으로 표시됨 |
| UN/LOCODE | XX-YYY2자리 국가 코드 + 3자리 지역 코드 | 국가 코드는 유효한 ISO 3166이어야 함; 지역 코드는 UNECE 마스터 데이터베이스에 존재해야 함 | "USNYC"는 정상 확인; "USNYD"(철자 오류)는 형식 검사를 통과하지만 다른 위치로 확인되거나 아예 확인되지 않음 |
| SCAC 코드 | AAAA2-4자리 대문자 | NMFTA에 등록되어야 함; 활성 운송사 데이터베이스와 대조 확인 | ACE eManifest 제출 거부됨; CBP 시스템에서 운송사 식별 불가 |
| HS 코드 (통일 상품 분류 체계) | XXXX.XX 또는 XXXX.XX.XXXX | 처음 6자리는 WCO 분류와 일치해야 함; 7-10자리는 국가별 코드 | 잘못된 관세율 적용; 세관 검사 유발; 재분류를 위해 화물 보류 |
| 날짜 (다양한 형식) | 06/30/2026, 30-JUN-2026, 2026-06-30 | ISO 8601로 정규화; 불가능한 날짜(월 >12, 출발 미래 날짜) 플래그 지정 | TMS가 날짜 필드 거부; 날짜 형식 수정 동안 화물 인도 지연 |
추출 중 이러한 규칙을 적용하는 검증 파이프라인은 단순히 오류를 잡는 것 이상의 역할을 합니다. 수동 정리 과정 없이 다운스트림 시스템에서 바로 사용할 수 있는 데이터셋을 구축합니다. ISO 6346 검증 숫자 검사를 통과한 컨테이너 번호는 운송사 추적 API로 직접 전송할 수 있습니다. UNECE 조회를 통과한 UN/LOCODE는 TMS 라우팅 테이블에 로드할 수 있습니다. 상품 설명과 일치하는 HS 코드는 세관에 자신 있게 제출할 수 있습니다.
검증 없이 추출하면 겉보기에는 정확해 보이는 원시 텍스트 스프레드시트가 생성됩니다. 하지만 7번째와 11번째 숫자가 바뀌어 운송사 추적 API가 "컨테이너를 찾을 수 없음"을 반환할 때까지는 말이죠. 하루 100~500달러의 체선료가 발생하는 이러한 지연은, 비용을 절감하는 추출과 또 다른 종류의 비용을 창출하는 추출의 차이를 만듭니다.
내보내기 전략 — 최종 스프레드시트에 포함되는 내용
선적 문서 추출은 데이터를 사용 가능한 형식으로 만들기 전까지 완료되지 않습니다. 출력 전략은 누가 사용하고 어떤 시스템에 공급되는지에 따라 달라집니다.
문서별 행. 패킷의 각 문서는 하나의 출력 행을 생성합니다. BOL 행에는 모든 BOL 필드가 포함됩니다. 패킹 리스트 행에는 모든 패킹 리스트 필드가 포함됩니다. 이는 각 문서의 전체 세부 정보를 보존하지만, 행 간에 수동으로 상호 참조해야 합니다. 각 문서를 개별적으로 감사해야 하는 팀에 가장 적합합니다.
선적별 통합 행. 선적당 하나의 행이며, 열은 원본 문서별로 그룹화됩니다: BOL_Container_Number, Manifest_Container_Number, PL_Container_Number, 그 뒤에 조정 열이 옵니다. 이는 AP 팀과 관세사가 선호하는 형식입니다. 선적의 모든 데이터가 한 곳에 있으며, 불일치 사항을 한눈에 확인할 수 있습니다.
라인 항목별 행. 패킹 리스트나 상업 송장의 각 라인 항목당 하나의 행이며, 선적 수준 필드(컨테이너 번호, BOL 번호, 항구 코드)가 모든 행에 반복됩니다. 이는 항목 수준 세부 정보가 필요한 재고 관리 시스템 및 관세 계산 엔진을 위한 형식입니다.
ImageToTable.ai는 배치 처리 파이프라인을 통해 세 가지 출력 형식을 모두 지원합니다. 내보내기 토큰 시스템을 사용하면 필요에 따라 Excel 파일을 생성하고 계정이 없는 팀원과 공유할 수 있습니다. 수신자는 링크를 열고 출력물을 다운로드합니다. 이는 각 클라이언트에게 도구 자체에 대한 액세스 권한을 부여하지 않고 선적 데이터를 공유해야 하는 포워더에게 특히 유용합니다.
선적 문서 추출의 일반적인 함정
올바른 접근 방식을 사용하더라도, 선적 문서 추출에는 자동화 처리를 처음 접하는 물류 팀을 잡는 함정이 있습니다.
모든 BOL을 동일한 문서로 취급. 직선 BOL, 해상 BOL, 복합운송 BOL, 하우스 BOL, 마스터 BOL은 이름은 같지만 필드 구조와 법적 효력이 다릅니다. 직선 BOL(단일 송하인, 단일 수하인, 단순 경로)에서 작동하는 추출 설정은 하우스 BOL의 HBL 참조 번호와 복합운송 BOL의 추가 운송 조건을 놓칩니다. 해결책은 접하는 가장 복잡한 문서 유형에 맞게 열 스키마를 설계하고, 더 간단한 문서는 더 적은 필드를 채우도록 하는 것입니다.
통합 계층 무시. 포워더가 5명의 송하인으로부터의 선적을 하나의 컨테이너로 통합할 때, 패킹 리스트는 단일 문서가 아니라 송하인 수준의 패킹 리스트 모음과 통합 매니페스트입니다. 추출 설정은 컨테이너 MSCU 234781 6에 5개 수출업체의 15개 개별 구매 주문이 포함될 수 있으며, 각각 고유한 PO 번호, HS 코드, 원산지 국가가 있음을 이해해야 합니다. 컨테이너당 한 행을 출력하는 도구는 세관이 요구하는 모든 항목 수준 세부 정보를 놓칩니다.
중량 정규화 생략. BOL에는 15,420 KGS로 표시될 수 있습니다. 매니페스트에는 34,000 LBS로 표시됩니다. 패킹 리스트에는 340 CWT(헌드레드웨이트)로 표시됩니다. 이들은 다른 단위로 표시된 동일한 중량이지만, 원시 텍스트 추출은 세 개의 다른 숫자로 출력합니다. 모든 중량을 단일 단위(킬로그램)로 정규화하고 (단위 변환 후) 실제 불일치 사항을 플래그 지정하는 계산된 열은 중량 관련 세관 보류 및 운송사 송장 분쟁을 방지합니다.
추출 시점에 코드를 검증하지 않는 행위. 유효하지 않은 컨테이너 체크디지트, 존재하지 않는 UN/LOCODE, 또는 불일치하는 HS 코드가 추출 시점에 발견되면 수정 비용이 들지 않습니다. 동일한 오류가 48시간 후 — ISF 신고가 제출되고 화물이 적재된 후 — 적발되면 미국 CBP 규정(19 CFR 149.3)에 따라 5,000달러의 수정 벌금이 부과됩니다. 실시간 검증 없는 추출은 추출이 아닌, 빠른 속도로 타이핑하는 것에 불과합니다.
자주 묻는 질문
하나의 추출 도구로 모든 선적 문서 유형(BOL, 적하목록, 패킹 리스트, 상업 송장)을 처리할 수 있나요?
가능합니다. 단, 템플릿 기반 OCR이 아닌 의미론적 추출을 사용하는 도구여야 합니다. 템플릿 도구는 문서 유형 및 운송사 형식별로 별도의 설정이 필요하므로 50개 이상의 템플릿을 유지 관리해야 합니다. 의미론적 추출은 필드가 위치한 위치가 아닌 의미를 기준으로 식별하므로, "컨테이너 번호"에 대한 동일한 열 정의가 형식별 설정 없이 머스크 BOL, MSC 적하목록, 화주의 패킹 리스트에서도 작동합니다. 핵심 전제 조건은 도구의 AI 모델이 물류 문서에 대해 학습되어야 한다는 것입니다. 송장만 본 일반 문서 추출 모델은 SCAC 코드와 컨테이너 번호 패턴을 놓칠 수 있습니다.
레이아웃이 다른 여러 운송사의 문서는 어떻게 처리하나요?
의미론적 AI 추출은 운송사별 템플릿 문제를 완전히 제거합니다. 각 운송사(Maersk, MSC, CMA CGM, COSCO, Hapag-Lloyd)의 BOL에 대한 경계 상자를 그리는 대신, "컨테이너 번호", "선적항", "SCAC 코드"와 같이 필드 의미를 기준으로 열을 정의합니다. 그러면 AI가 선적 문서의 필드 레이블과 데이터 값 간의 의미론적 관계를 이해하여 모든 운송사 레이아웃에서 각 값을 찾습니다. 운송사가 양식을 재설계하더라도 템플릿 업데이트 없이 새 레이아웃에서 추출이 작동합니다.
AI가 필기된 패킹 리스트 항목과 필기된 BOL 필드를 읽을 수 있나요?
최신 비전 AI는 합리적인 품질의 이미지에서 필기체를 85-95% 정확도로 읽습니다. 이는 동일한 필기 입력에 대한 기존 OCR의 50-70% 범위보다 상당히 높은 수치입니다. 그러나 정확도는 필드 유형에 따라 다릅니다. 구조화된 필기 숫자(개수, 중량, 날짜)는 필기체 수하인 이름보다 신뢰할 수 있습니다. 특히 선적 문서의 경우, 패킹 리스트의 필기된 패키지 표시와 BOL의 필기된 개수 수정이 가장 일반적인 필기 문제이며, 운송사 송장 분쟁을 유발하는 필드이므로 정확히 처리하는 것이 가장 중요합니다. 실용적인 접근 방식은 모든 필기 출력을 맹목적으로 신뢰하는 대신, 신뢰도 점수가 낮은 필기 필드를 수동 검토용으로 표시하는 것입니다.
5페이지 분량의 해상 B/L처럼 여러 페이지로 구성된 문서에서 품목이 2~4페이지에 걸쳐 있을 경우 어떻게 처리하나요?
잘 설계된 추출 파이프라인은 여러 페이지 문서를 하나의 논리적 단위로 처리합니다. AI가 모든 페이지를 순서대로 읽으며, 1페이지의 선적 컨텍스트(B/L 번호, 송하인, 선박명)를 품목 페이지로 전달합니다. 2페이지에서 시작하여 3~4페이지까지 이어지는 화물 설명 테이블은 4개의 개별 추출 작업으로 분할되지 않고 하나의 출력 블록으로 병합됩니다. 이를 위해서는 도구가 문서-페이지 관계를 이해해야 하며, 이는 모든 추출 도구가 지원하는 기능이 아니며, 물류팀이 B/L에 송장 중심 도구를 사용하려 할 때 발생하는 주요 실패 원인 중 하나입니다.
선적 문서 추출의 표준 출력 형식은 Excel, CSV, JSON 중 무엇인가요?
Excel(.xlsx)은 계산 열(조정 수식), 다중 시트 워크북(문서 유형별 시트)을 지원하고 대부분의 TMS 및 ERP 시스템에 직접 가져올 수 있기 때문에 물류팀에게 가장 일반적인 출력 형식입니다. CSV는 EDI 피드 및 레거시 시스템 가져오기에 유용한 경량 대안입니다. JSON은 추출된 데이터가 API나 맞춤형 애플리케이션을 공급할 때 선호됩니다. 최고의 추출 도구는 세 가지 형식을 모두 지원하며 배치별로 선택할 수 있습니다. 이 가이드에서 설명하는 선적별 워크플로우에는 계산된 조정 열이 포함된 Excel이 권장 형식입니다.
추출 과정에서 컨테이너 번호는 어떻게 검증하나요?
컨테이너 번호는 ISO 6346 형식을 따릅니다: 대문자 4자(소유자 코드 + 범주 식별자) 뒤에 7자리 숫자가 오며, 7번째 숫자는 특정 알고리즘으로 계산된 체크 디짓입니다. 검증 파이프라인은 추출된 모든 컨테이너 번호에 체크 디짓 알고리즘을 적용합니다. 계산된 체크 디짓이 추출된 체크 디짓과 일치하지 않으면 해당 값에 검증 경고가 표시됩니다. 이렇게 하면 가장 흔한 컨테이너 번호 입력 오류(숫자 전위)가 TMS에 도달하기 전에 잡아냅니다. 체크 디짓 검증을 통과한 컨테이너 번호가 반드시 올바르다고 보장할 수는 없지만(잘못된 소유자 코드에 유효한 체크 디짓이 있을 수 있음), 입력 오류의 95% 이상을 제거합니다.
반복 가능한 선적 문서 워크플로우 구축
선적 문서 추출은 일회성 디지털화 프로젝트가 아닙니다. 이는 반복 가능한 운영 프로세스입니다: 매일, 선적분의 BOL, 선하증권, 적하목록, 포장명세서, 상업송장, 운임송장이 PDF와 이미지로 도착하고, 매일 그 데이터는 수동 타이핑 과정 없이 TMS, 세관 중개인, AP 시스템에 도달해야 합니다. 작동하는 추출과 새로운 작업을 만들어내는 추출의 차이는, 도구가 전체 패킷을 함께 처리하는지 — 문서 간 필드 매핑, 코드 검증, 배치 내보내기 포함 — 아니면 각 문서 유형을 별도로 추출한 후 결과를 수동으로 연결하도록 강제하는지에 달려 있습니다.
BOL을 읽고 멈추는 도구 — 선하증권 전, 적하목록 전, 포장명세서 전, 문서 간 조정 전 — 는 하나의 문서를 읽었을 뿐입니다. 선적을 처리한 것이 아닙니다. 완전한 추출은 패킷을 캡처하고, 공유 필드를 검증하며, 불일치가 이미 표시되고 코드가 이미 표준화된 데이터셋을 출력합니다. 이것이 문서 읽기 도구와 선적 문서 워크플로우의 차이입니다.