선하증권 데이터 추출이란? 화물 문서 자동화

선하증권 데이터 추출은 스캔 또는 PDF 선하증권에서 BOL 번호, 송하인, 수하인, 운송사, 선적항, 양륙항, 컨테이너 번호, 봉인 번호, 화물 설명, 중량, 패키지, 운임 조건, HS 코드 등 주요 선적 필드를 자동으로 읽어 TMS, ERP 또는 세관 신고 시스템에 직접 입력되는 구조화된 데이터로 출력하는 프로세스입니다.

선하증권 데이터 추출의 실제 의미

대부분의 물류 전문가들은 이 용어를 접하면 "BOL용 OCR"을 떠올립니다. 그것도 맞는 말이지만, 현대적 추출이 실제로 하는 일을 과소평가한 것입니다. 선하증권은 하나의 문서 유형이 아니라 구조, 범위, 법적 효력이 크게 다른 문서군입니다.

직선 선하증권(양도 불가)은 특정 수하인을 지정하며 양도할 수 없습니다. 해상 선하증권은 해상 운송을 대상으로 하며 영수증이자 선하증권으로 기능합니다. 원본을 소지한 사람이 화물을 청구할 수 있습니다. 복합운송 선하증권은 해상, 철도, 트럭 구간을 하나의 문서로 통합합니다. 또한 마스터 선하증권(운송인이 포워더에게 발행)과 하우스 선하증권(포워더가 화주에게 발행)이 있어 동일한 선적에 대해 중복되지만 서로 다른 데이터를 포함하는 두 개의 문서가 존재합니다.

각 유형마다 필드 배치가 다릅니다. 머스크 해상 선하증권은 컨테이너 번호를 오른쪽 상단에 배치하고, MSC 선하증권은 선박명 아래 중간 페이지에 배치합니다. 하우스 선하증권은 직선 선하증권에는 없는 상호 참조 필드로 마스터 선하증권 번호를 참조할 수 있습니다.

제대로 이해된 BOL 데이터 추출은 단순히 이미지 픽셀을 텍스트로 변환하는 것이 아닙니다. 운송사별, BOL 유형별, 종종 여러 페이지에 걸쳐 어떤 텍스트 조각이 어떤 선적 데이터 필드에 해당하는지 식별한 다음, 해당 값을 표준화된 코드(항만용 UN/LOCODE, 운송사용 SCAC, 상품용 HS 코드)로 매핑하여 단순한 텍스트 덤프가 아닌 다운스트림 시스템에서 바로 사용할 수 있는 출력을 생성하는 것입니다.

유엔 유럽 경제 위원회(UNECE)가 관리하는 UN/LOCODE 시스템은 249개국 100,000개 이상의 운송 위치에 고유한 5자리 코드를 할당합니다. 예를 들어 "상하이"는 CN SHA, "로테르담"은 NL RTM이 됩니다. 마찬가지로 NMFTA가 관리하는 표준 운송사 알파 코드(SCAC)는 2~4자리 문자 코드로 운송사를 식별합니다. 머스크는 MAEU, 하팍로이드는 HLCU, 코스코는 COSU입니다. 이러한 코드를 출력하는 BOL 추출 도구는 운송사의 인쇄된 이름만 출력하는 도구와 달리 TMS 가져오기 단계에서 수동 조회 단계를 없애줍니다.

선하증권 추출 vs TMS 데이터 입력 vs 수동 키 입력

이 세 가지 활동은 서로 다른 계층에 있으며, 이를 혼동하면 BOL 추출이 실제로 대체하는 것이 무엇인지에 대한 혼란이 생깁니다.

수동 키 입력은 운영 담당자가 운송업체 이메일에서 PDF BOL을 열고, 선적 세부 정보를 읽은 후 스프레드시트나 TMS에 직접 입력하는 작업입니다. 익숙한 형식의 문서당 10~15분이 소요되며, 익숙하지 않은 운송업체 레이아웃의 경우 더 오래 걸리므로 하루 수십 건의 선적을 넘어서면 확장이 어렵습니다. 한 포워딩 데이터 입력 워크플로우 연구에 따르면, 일일 30건 이상의 선적에서 오류 수정 루프가 초기 입력보다 더 많은 시간을 소비하기 시작하면서 문서당 수동 처리 비용이 급격히 증가합니다.

TMS 데이터 입력은 CargoWise, Descartes, SAP TM, Oracle TM 또는 GoFreight와 같은 클라우드 네이티브 플랫폼에 선적 기록을 입력하여 운송 관리 시스템을 채우는 광범위한 활동입니다. TMS는 마일스톤 관리, 컨테이너 추적, 고객 가시성 보고서 생성 및 청구 처리를 수행하는 곳입니다. 하지만 TMS는 BOL PDF를 읽지 않습니다. 구조화된 입력을 기다립니다. "BOL이 받은 편지함에 도착"하는 시점과 "CargoWise에 선적 기록이 존재"하는 시점 사이의 격차가 병목 현상이 발생하는 지점입니다.

BOL 데이터 추출은 그 격차를 메웁니다. TMS의 상위에 위치하여 비정형 문서를 TMS가 CSV 업로드, API 통합 또는 직접 데이터베이스 쓰기를 통해 소비할 수 있는 정형 데이터로 변환합니다. TMS를 대체하는 것이 아니라 TMS에 데이터를 공급합니다. 이미 TMS를 사용하는 팀에게 BOL 추출은 누락된 입력 계층입니다. 여전히 스프레드시트로 운영하는 팀에게는 TMS 마이그레이션이 시작되기 전에 정형 선적 데이터로 가는 첫 번째 단계인 경우가 많습니다.

선하증권 데이터 추출 작동 방식

기술 파이프라인은 5단계로 구성되며, 이를 이해하면 현대 AI 추출이 템플릿 기반 OCR보다 다중 운송업체 BOL을 훨씬 더 잘 처리하는 이유가 명확해집니다.

문서 접수. BOL이 PDF 첨부파일, 부두에서 스캔한 이미지, 또는 야드에서 촬영한 사진 형태로 도착합니다. 추출 시스템은 선사나 문서 유형별 사전 분류 없이 여러 형식(PDF, JPG, PNG)을 지원합니다.

시각적 이해. OCR이 라인별로 텍스트를 읽고 필드 레이블을 패턴 매칭하는 대신, 비전 AI 모델이 물류 담당자가 BOL을 훑어보는 방식처럼 페이지 전체를 종합적으로 읽습니다. "POL: CNSHA"가 적하항임을 인식하는 것은 고정된 좌표 때문이 아니라, 적하항 레이블과 위치 코드 간의 의미론적 관계를 이해하기 때문입니다.

필드 매핑. BOL 번호, 송하인, 수하인, 컨테이너 번호, 중량, 운임 조건 등 원하는 항목을 지정하면 AI가 페이지 내 어디에 있든 값의 의미를 이해하여 각 값을 찾아냅니다. 이것이 의미론적 추출과 템플릿 기반 OCR의 근본적인 차이입니다. AI는 머스크, MSC, CMA CGM 형식별로 별도 설정이 필요하지 않습니다.

표준화 및 검증. 추출된 값은 정규화 과정을 거칩니다. 컨테이너 번호는 ISO 6346 체크디지트 규칙(컨테이너 번호는 문자 4자리+숫자 7자리이며, 7번째 숫자는 검증 숫자)에 따라 검증됩니다. 항구명은 UN/LOCODE 5자리 코드로 매핑됩니다. 선사명은 SCAC 코드로 변환됩니다. 날짜는 ISO 형식으로 표준화됩니다.

출력. 구조화된 데이터는 Excel 스프레드시트, CSV 파일 또는 JSON 페이로드로 생성됩니다. BOL당 한 행씩, 사용자가 정의한 필드가 열로 구성됩니다. 이 데이터는 TMS, ERP 또는 세관 신고 워크플로우로 전송됩니다. 품목별 화물 상세 정보가 포함된 다중 페이지 BOL은 각 상품 라인이 별도의 데이터 행이 되도록 행 수준 세분화로 평탄화됩니다.

이 파이프라인이 다양한 선사에서 작동하는 이유는 최신 AI 추출과 레거시 OCR을 구분짓는 동일한 메커니즘, 즉 템플릿 없는 의미론적 이해 덕분입니다. 기존 OCR 도구는 머스크 BOL의 각 필드 주변에 사각형을 그리고, MSC에 대해 다시 그리고, 하팍로이드에 대해 또 다시 그려야 합니다. 선사가 BOL 레이아웃을 업데이트하면(실제로 자주 업데이트합니다) 템플릿이 깨집니다. 최신 추출은 숙련된 물류 전문가가 문서를 읽는 방식, 즉 좌표를 암기하는 대신 내용을 이해하는 방식으로 문서를 읽는 비전 AI를 사용합니다.

선하증권 데이터 추출이 필요한 경우

모든 물류 운영에 자동화된 BOL 추출이 필요한 것은 아닙니다. 하지만 다음 네 가지 시나리오에서는 그 필요성이 명확해집니다.

대규모 포워딩 업무. 하루 50건 이상의 선적을 처리하는 포워더는 Maersk, MSC, CMA CGM, Hapag-Lloyd, COSCO, ONE, Evergreen 등 다양한 선사의 BOL을 받으며, 각각 문서 형식이 다릅니다. 모든 BOL 데이터를 TMS에 입력하기 전에 엑셀이나 스프레드시트로 추출해야 한다면, 물량 자체가 선택을 강요합니다: 데이터 입력 직원을 더 고용하거나 추출 단계를 자동화하는 것입니다. 중견 포워더에서는 BOL 데이터 입력만 전담하는 정규 직원 3명이 실제로 존재하는 인력 구성입니다. 추출 자동화는 이 3명의 역할을 예외 케이스를 검토하는 1명의 핸들러로 줄이고, 나머지 2명은 고객 서비스와 운임 협상이라는 더 가치 높은 업무에 집중하게 합니다. 이는 단순히 운영을 유지하는 것을 넘어 비즈니스를 성장시키는 일입니다.

통관 업무. 관세사는 통관 신고서를 제출하기 위해 BOL의 특정 항목(송하인, 수하인, HS 코드, 화물 설명, 중량, 선적항, 양륙항)이 필요합니다. 다양한 선사의 BOL에서 수동으로 추출하면 오류가 발생해 통관 보류와 체선료가 발생할 수 있습니다. 구조화된 BOL 데이터가 통관 소프트웨어로 직접 흘러가면 대부분의 오류가 발생하는 입력 단계가 사라집니다.

선적 추적 및 가시성. 고객이 "제 컨테이너는 어디에 있나요?"라고 물을 때, 답은 BOL에 있습니다. 단, BOL 번호와 컨테이너 번호가 이미 추적 시스템에 입력되어 있어야 합니다. 수동 입력은 문서 수령과 시스템 가시성 사이에 시차를 만듭니다. 자동화된 추출은 그 시차를 몇 분으로 줄여, 추적을 수동적인 문의-응답 주기에서 능동적인 고객 대시보드로 전환합니다.

공급망 분석. 집계된 BOL 데이터(항로별 선적량, 항로별 운송사 실적, 경로별 평균 운송 시간)는 전략적 인사이트를 제공합니다. 하지만 이 데이터가 PDF와 스프레드시트에 갇혀 있다면 어떤 분석 도구도 접근할 수 없습니다. 추출을 통해 BOL 수준의 데이터를 쿼리 가능하게 만들면, 수동 프로세스로는 불가능했던 트렌드 분석이 가능해집니다.

BOL 추출 도구 선택 시 확인 사항

실제 운영에서 작동하는 추출 도구와 깨끗한 단일 선사 PDF 데모에서만 작동하는 도구를 가르는 다섯 가지 기준입니다.

1. 다중 선사 형식 처리. 도구는 선사별 설정 없이 최소 주요 컨테이너 선사의 BOL을 처리할 수 있어야 합니다. Maersk용 템플릿을 만들고, MSC용, CMA CGM용을 또 만들어야 한다면, 병목이 데이터 입력에서 템플릿 유지보수로 옮겨간 것뿐입니다. 동일 선사의 3개 선적이 아닌, 서로 다른 3개 선사의 BOL로 테스트를 요청하세요.

2. 필드 수준 검증. 컨테이너 번호는 ISO 6346 체크디지트 규칙에 따라 검증되어야 합니다. 항구 코드는 UN/LOCODE에 매핑되거나 최소한 표준화된 형식으로 추출 가능해야 합니다. 도구가 한 BOL에서는 "CNSHA", 다른 BOL에서는 "SHANGHAI", 또 다른 BOL에서는 "Port of Shanghai, CN"이라고 나올 때 "Shanghai"를 출력한다면, 다운스트림 TMS 가져오기에서 여전히 수동 정리가 필요합니다.

3. 다중 페이지 및 라인 항목 지원. 컨테이너 화물을 실은 해상 BOL은 종종 3~5페이지에 달하며, 상품 설명, 컨테이너 번호, 봉인 번호, 중량, 패키지 수량이 계속 페이지에 걸쳐 분산되어 있습니다. 1페이지만 읽는 도구는 데이터의 절반을 놓칩니다. 각 상품 행이 별도의 데이터 행이 되는 라인 항목 수준 추출은 통관 분류 및 재고 조정에 필수적입니다.

4. 워크플로우로 직접 내보내기. CSV와 Excel은 기본입니다. 진짜 질문은 도구가 사용자 스택과 통합되는지 여부입니다. 커스텀 파이프라인을 위한 직접 API, 또는 운영팀이 스프레드시트로 작업하는 경우 Google Sheets 통합입니다. Google Sheets 애드온이 있는 도구는 팀이 이미 선적을 추적하는 스프레드시트를 떠나지 않고 BOL 데이터를 추출할 수 있게 해줍니다.

5. 일괄 처리. 하루 5건의 선적에는 BOL을 하나씩 처리해도 됩니다. 50건이라면 전체 배치를 업로드하고, 필드를 한 번 정의한 후 병합된 출력(각 BOL당 한 행의 단일 스프레드시트)을 얻어야 합니다. 다중 선사 일괄 BOL 추출에서 시간 절약 효과가 극대화됩니다. 50회의 개별 업로드 및 검토 주기가 아닌, 단일 실행으로 50개의 BOL을 처리합니다.

자주 묻는 질문

BOL 데이터 추출 도구와 TMS의 차이점은 무엇인가요?

TMS(운송 관리 시스템)는 CargoWise, Descartes, SAP TM과 같이 화물의 마일스톤, 추적, 청구, 운송사 커뮤니케이션 등 운송 워크플로를 관리합니다. BOL PDF를 읽지는 않습니다. BOL 추출 도구는 BOL 문서를 읽어 TMS에 공급할 구조화된 데이터로 변환합니다. 이 둘은 대체재가 아닌 상호 보완적인 계층입니다. 두 시스템이 어떻게 함께 작동하는지 자세히 알아보려면 BOL 추출과 TMS 워크플로 통합에 관한 글을 참조하세요.

BOL 데이터 추출로 필기 입력도 처리할 수 있나요?

네, 최신 AI 비전 모델은 템플릿 기반 OCR로는 따라잡을 수 없는 정확도로 필기된 BOL 필드(운송사 스탬프, 수동 수정, 독(dock) 영수증의 컨테이너 번호 등)를 읽을 수 있습니다. 다만, 매우 읽기 어려운 필기나 심각한 문서 손상은 정확도를 떨어뜨립니다. 최상의 결과를 얻으려면 조명이 좋은 상태에서 선명하게 스캔하거나 사진을 찍으세요.

BOL 추출이 모든 운송사 형식에서 작동하나요?

템플릿이 필요 없는 추출 도구는 운송사별 설정 없이도 다양한 형식에서 작동합니다. AI가 위치가 아닌 의미로 필드를 식별하기 때문입니다. 다만, 실제 거래하는 운송사에 대해 성능을 확인하는 것이 좋습니다. Maersk, MSC, CMA CGM, Hapag-Lloyd, COSCO, ONE, Evergreen 등 주요 선사는 최신 추출 엔진에서 잘 지원됩니다. 레이아웃이 특이한 지역 운송사의 경우 테스트가 필요할 수 있습니다.

BOL 데이터 추출의 정확도는 어느 정도인가요?

최신 AI 기반 추출은 주요 운송사의 깨끗하고 잘 스캔된 BOL에서 필드 수준 정확도 95~99%를 달성합니다. 저해상도 스캔, 필기가 많은 경우, 또는 손상된 문서에서는 정확도가 떨어집니다. 중요한 지표는 단순 정확도가 아니라 신뢰할 수 있는 처리량, 즉 수동 검토 없이 하루에 처리할 수 있는 BOL 수입니다. 99% 정확도로 추출하지만 모든 필드를 확인해야 한다면 의미가 없습니다. 필드별로 명확한 신뢰도 지표를 제공하는 도구를 사용하면 신뢰도가 낮은 추출(보통 필드의 5~10%)만 검토하고 나머지는 신뢰할 수 있습니다.

BOL 데이터 추출과 EDI의 차이점은 무엇인가요?

EDI(전자 데이터 교환)는 화물 운송업체로부터 구조화된 선적 데이터를 직접 제공하므로 별도의 추출이 필요하지 않습니다. 하지만 EDI는 운송업체별 설정, 테스트 및 지속적인 유지보수가 필요하며, 많은 중소 운송업체와 포워더가 이를 지원하지 않습니다. 실제로 대부분의 물류 운영은 주요 항로의 대형 운송업체로부터 EDI를, 나머지 업체로부터는 PDF BOL을 혼합하여 받습니다. BOL 추출은 PDF 측면을 처리합니다. 자세한 비교는 EDI와 AI BOL 추출 비교: 포워더를 위한 가이드를 참조하세요.

하우스 BOL과 마스터 BOL 데이터를 함께 추출할 수 있나요?

네. 적절한 추출 설정을 통해 하우스 BOL과 마스터 BOL을 동일한 배치에서 처리할 수 있으며, 공통 필드(송하인, 수하인, 항구, 컨테이너 번호)를 매핑하면서 BOL 유형별 필드(하우스 BOL 참조 번호, 마스터 BOL 번호)도 처리합니다. 핵심은 두 문서 유형 모두에서 필요한 필드의 합집합을 포착하도록 열 세트를 정의하는 것입니다.

누군가의 받은 편지함에 쌓여 TMS에 수동 입력되기를 기다리는 모든 BOL은 추적되지 않는 선적, 업데이트되지 않는 고객, 시작되지 않은 통관 신고입니다. BOL 데이터 추출은 선적 데이터로 무엇을 하는지 바꾸지 않습니다. 단지 데이터를 사용 가능한 형태로 얼마나 빨리 얻을 수 있는지를 바꿉니다. 대부분의 물류 팀에게 이것은 어제의 서류 작업에 대응하는 것과 오늘의 선적을 실시간으로 관리하는 것의 차이입니다.

다음: 선하증권 데이터를 엑셀로 추출하는 방법 — 단계별 가이드 →