계약 데이터 추출 완벽 가이드 (2026)

세계상업계약기구(World Commerce & Contracting)에 따르면, 조직은 계약 관리 부실로 인해 연간 수익의 평균 9.2%를 손실합니다. 나쁜 거래 때문이 아니라, 서명된 계약서 안에 존재하지만 누구도 정렬, 필터링, 조치를 취할 수 있는 시스템에 도달하지 못하는 데이터 때문입니다. 계약 데이터 추출은 이러한 격차를 해소하는 단계입니다. 계약서를 읽고 당사자, 날짜, 금액, 지급 조건, 갱신 트리거, 의무 사항 등 구조화된 필드를 스프레드시트로 출력하여 데이터를 눈에 보이고 실행 가능하게 만듭니다. 이 가이드는 계약이 추출하기 가장 까다로운 문서 유형인 이유부터, 가장 중요한 필드, 배치 처리를 통해 포트폴리오 검토를 몇 주에서 오후로 단축하는 방법까지 프로세스의 모든 측면을 다룹니다.

계약 데이터 추출이 중요한 이유

수치는 냉혹합니다. 평균적인 중대형 기업은 24개의 서로 다른 시스템에 걸쳐 계약을 관리하며, 계약 데이터는 공유 드라이브, 이메일 첨부파일, 레거시 저장소, 파일 캐비닛에 흩어져 있습니다. "다음 분기에 자동 갱신되는 공급업체 계약은?" 또는 "무제한 면책 조항에 따른 총 노출액은?" 같은 질문이 생기면, 각 파일을 열어 한 페이지씩 읽어야 답을 찾을 수 있습니다. 1,300명의 계약 전문가를 대상으로 한 CLOC 설문조사에 따르면, 단일 계약서 내에서 특정 문구를 찾는 데 평균 2시간 이상이 소요됩니다. 올바른 문서를 찾는 데 45분, 그다음 관련 섹션을 찾는 데 추가로 84분이 걸립니다. 연간 500건의 계약을 처리하는 법무 부서라면, 250일 중 188일을 단순 검색에 소비하는 셈입니다.

이로 인한 하류 비용은 측정 가능합니다. World Commerce & Contracting 연구에 따르면, 계약 관리 부실로 인해 연간 수익의 9.2%가 누수되며, 우수 기업은 손실을 3%로 제한하는 반면 부진 기업은 15~20%를 잃습니다. Juro의 2026년 설문조사에 따르면, 단 11%의 기업만이 자사의 계약 관리를 "매우 효과적"이라고 평가했으며, Loio의 2026년 데이터는 71%의 기업이 계약의 최소 10%를 찾을 수 없다고 응답했습니다. 이는 기술 문제가 아니라 데이터 접근 문제입니다. 정보는 계약서 안에 존재하지만, 구조화되어 있지 않고 검색 불가능하며 눈에 보이지 않습니다.

계약 데이터 추출은 이 접근 계층을 해결합니다. 각 계약을 읽는 대신, 추출은 사용자가 지정한 필드와 조항을 읽어 스프레드시트의 열로 출력합니다. 계약당 한 행, 요청된 모든 데이터 포인트가 각각의 셀에 담깁니다. 과거에 갱신 날짜를 찾기 위해 계약당 2시간을 소비하던 팀은 이제 단일 열을 정렬하여 향후 90일 이내에 만료되는 모든 항목을 한눈에 볼 수 있습니다. 기본 기술은 '읽기'가 아닙니다. "2027년 6월 15일"이 무엇을 의미하는지 알려주는 데 AI는 필요하지 않습니다. 핵심 기술은 대규모 검색입니다. 동일한 12개 필드에 대해 50개, 200개, 500개의 계약을 읽고, 건수가 늘어나도 정확도가 떨어지지 않는 구조화된 출력을 제공하는 것입니다. 이 프로세스의 기본 개념에 대해서는 계약 데이터 추출이란 무엇인지와 계약 검토, OCR, CLM 플랫폼과의 차이점을 참조하세요.

계약서 추출이 특히 어려운 이유

송장 추출은 비교적 간단합니다. 총액은 예측 가능한 위치에 있고, 송장 번호는 알아보기 쉬운 라벨을 따릅니다. 품목은 일관된 열로 구성된 표를 이룹니다. 이러한 패턴이 유지되는 이유는 송장 소프트웨어가 일관된 템플릿을 생성하기 때문이며, 형식이 다양하더라도 송장의 구조적 문법(헤더 필드, 품목, 총액)은 공급업체와 국가를 막론하고 안정적입니다.

계약서는 이러한 가정을 모두 깨뜨립니다. 계약서를 신뢰할 수 있게 추출하기 가장 어려운 문서 유형으로 만드는 요소는 다음과 같습니다.

길이와 밀도. 일반적인 상업 계약서는 20~80페이지입니다. 고용 계약서는 5~15페이지일 수 있습니다. 부록과 수정 사항이 포함된 복잡한 공급업체 MSA는 100페이지를 넘을 수 있습니다. 원하는 데이터가 몇 군데에 집중되어 있는 송장과 달리, 계약 데이터는 문서 전체에 분산되어 있으며, 분포 패턴은 계약 상대방마다 다릅니다. 발효일은 1페이지의 전문에 있을 수 있고, 갱신 조건은 27페이지의 14조에 있을 수 있으며, 지불 일정은 부록 B의 3페이지에 걸친 표일 수 있습니다. 처음 몇 페이지만 읽거나 각 페이지를 독립 문서로 취급하는 도구는 실제로 중요한 데이터를 놓칠 것입니다.

페이지와 조항에 걸친 필드 분산. 계약 필드는 모여 있지 않습니다. 예를 들어 준거법이라는 단일 데이터 포인트는 일반적으로 '기타 조항' 또는 '일반 규정' 섹션의 독립 조항에 나타나며, 이는 종종 서명란 앞의 마지막 실질적 섹션입니다. 따라서 40페이지 계약서의 35페이지에 위치하며, 1페이지의 계약 상대방 이름과는 수백 개의 단락 떨어져 있습니다. 문서 구조 내 필드 위치에 의존하는 템플릿 기반 추출 도구('준거법은 '기타 조항' 제목 아래에 있다')는 초안 작성 관행이 다를 때 작동하지 않으며, 이는 계약 상대방마다 항상 다릅니다.

지불 일정을 위한 표 추출. 많은 계약서에는 산문 텍스트보다 추출하기 어려운 구조화된 표가 포함되어 있습니다: 수수료 일정, 마일스톤 지불 타임라인, 관련 금액이 있는 인도물 목록, 임대차 계약서의 임대료 인상 표 등. 이러한 표는 종종 여러 페이지에 걸쳐 있으며, 셀 병합, 일관되지 않은 열 정렬, 개별 항목을 한정하는 각주가 있습니다. 기존 OCR은 표의 각 페이지를 독립적으로 처리하여 페이지 경계를 넘는 행을 끊습니다. 계약 추출 도구는 페이지 나누기를 넘어 읽고, 열 연관성을 유지하며, 소계 행과 데이터 행을 구분해야 합니다. 이는 각 셀의 문자를 인식하는 것뿐만 아니라 표의 의미 구조를 이해해야 하는 작업입니다.

상호 참조가 포함된 복잡한 법률 언어. 계약서의 한 문장은 다음과 같을 수 있습니다: "제8.2조의 반대 규정에도 불구하고, 본 제X조에 따른 배상 당사자의 의무는 피배상 당사자가 제5.3(b)(ii)조에 따른 의무를 준수하지 않아 발생하는 손실에 대해서는 적용되지 않습니다." 이 문장은 다른 세 개의 조항을 참조하고, 15페이지 앞서 정의된 용어를 사용하며, 중첩된 조건을 포함합니다. '배상'에 대한 키워드 검색은 해당 조항을 찾습니다. 그러나 검색만으로는 배상에 상한선이 있는지 없는지 알 수 없습니다. 상한선이 다른 조항에서 다른 언어로 정의될 수 있기 때문입니다. 추출은 키워드의 존재를 식별하는 것뿐만 아니라 상호 참조 구조를 이해해야 합니다.

상대방별 계약서 형식의 다양성. 모든 계약서는 서로 다른 당사자가 작성합니다. 일반적으로 상대방이 작성하기 때문에 귀 조직은 템플릿을 통제할 수 없습니다. 포춘 500대 기업의 공급업체 MSA는 부티크 법인의 MSA와 전혀 다릅니다. 캘리포니아 테크 기업의 고용 계약서는 텍사스 제조 기업이 작성한 계약서와 구조와 표현이 다릅니다. 같은 조직 내에서도 3년 간격으로 체결된 계약서는 서로 다른 법무팀이 개발한 다른 템플릿을 사용할 수 있습니다. 한 계약서에서 성공한 위치 기반 추출 방식은 다음 계약서에서는 조용히 실패합니다. 유일하게 신뢰할 수 있는 아키텍처는 의미 기반 추출, 즉 텍스트가 페이지의 어디에 있는지가 아니라 무엇을 의미하는지를 읽는 방식입니다.

전통적 접근법 vs AI 추출

지난 2년간 추출 기술의 변화는 점진적이 아니라 근본적입니다. 이는 문서를 이해하는 두 가지 아키텍처의 차이입니다.

위치 기반 추출 — 전통적 접근법. 템플릿 OCR 및 영역 추출 도구는 위치에 따라 작동합니다. "발효일"이 나타나는 페이지 영역을 정의하면 도구는 해당 영역 내의 텍스트를 읽습니다. 이 접근법은 단일 ERP 시스템의 표준화된 인보이스처럼 고정된 레이아웃의 문서에는 효과적입니다. 그러나 계약서의 경우 두 가지 문제가 발생합니다. 첫째, 새로운 계약서 형식마다 새 템플릿이 필요하고, 형식이 변경되면 템플릿을 유지보수해야 합니다. 둘째, 도구는 정의된 영역 밖의 모든 것을 인식하지 못합니다. 상대방이 발효일을 전문(preamble) 대신 섹션 1에 넣으면 도구는 아무것도 반환하지 않으며, 문제가 발생했다는 표시도 없습니다.

의미 기반 추출 — AI 접근법. 현대 AI 기반 추출은 위치가 아닌 의미를 기준으로 읽습니다. 이것이 바로 커스텀 열 추출(Custom Column Extraction)입니다. 출력에서 원하는 열 이름("상대방", "발효일", "갱신 조건", "계약 금액", "준거법")을 입력하면, AI(비전 기반 대규모 언어 모델)가 전체 문서를 읽고, 각 요청 필드에 해당하는 텍스트 블록을 의미적 역할을 이해하여 식별한 후 각 일치 항목을 올바른 출력 열에 매핑합니다. 한 계약서 전문의 발효일과 다른 계약서 27페이지 수정안에 숨겨진 발효일이 모두 동일한 스프레드시트 열에 들어갑니다. AI가 발효일이 무엇인지 이해하기 때문이지, 일반적으로 어디에 있는지가 아니기 때문입니다.

패러다임의 전환은 "문서가 데이터의 위치를 정의한다"에서 "당신이 원하는 것을 정의하면 AI가 찾는다"로 바뀌었습니다. 이는 계약서에 중요합니다. 어떤 두 상대방도 동일한 형식을 사용하지 않기 때문입니다. 템플릿 기반 도구는 템플릿과 일치하는 계약서만 처리합니다. 의미 기반 추출은 모든 계약서를 처리합니다. 언어를 읽지 레이아웃을 읽지 않기 때문입니다. 이 기술 변화가 다양한 문서 유형에 어떻게 적용되는지 자세히 알아보려면 AI 문서 추출 작동 방식에 대한 설명을 참조하세요.

실질적인 차이는 측정 가능합니다. 30개 상대방의 50개 계약서에 대한 템플릿 기반 워크플로우는 30개의 템플릿을 만들고 유지보수해야 하며, 템플릿이 완벽하게 일치하지 않는 계약서에서는 추출 정확도가 떨어집니다. 의미 기반 추출 워크플로우는 12개의 열 이름을 한 번 정의하고 50개 계약서 모두를 동일한 추출 과정에 실행하는 것을 의미합니다. AI가 계약서별로 적응 작업을 수행하며, 사용자가 할 필요가 없습니다.

대부분의 계약 추출 과제는 하나의 아키텍처 결정으로 거슬러 올라갑니다: 위치 기반 또는 의미 기반. 위치 기반 도구는 계약 다양성에 비례하여 유지보수가 필요합니다. 의미 기반 추출은 다양성을 자동으로 처리하지만, AI가 단순한 패턴 매칭이 아닌 문서 맥락을 진정으로 이해해야 합니다. 평가 중인 도구에 이전에 거래한 적 없는 상대방의 계약을 입력해 테스트해보세요. 새 템플릿이 필요하다면, 추출이 아닌 설정 오버헤드를 구매하는 것입니다.

계약에서 추출할 주요 필드

무엇을 추출할지는 추출 목적에 따라 달라집니다. 실사 중인 법무팀은 조항의 존재 여부와 범위를, 조달팀은 지출 약정과 갱신일을, 인사팀은 보상, 통지 기간, 제한 조항을 중요시합니다. 추출 스키마는 사용 사례와 일치해야 하며, "만일을 대비해" 모든 것을 추출하면 아무도 사용하지 않는 잡음이 많은 스프레드시트가 생성됩니다.

다음은 가장 일반적인 두 가지 계약 범주에서 중요한 필드와 각 필드가 필요한 이유입니다:

필드	중요한 이유	상업/법률 계약	고용 계약
당사자	모든 데이터의 기초 — 계약 상대를 모르면 다른 정보가 무의미합니다.	공급업체명, 고객 법인, 자회사 지정	직원명, 고용주 법인
발효일 및 계약 기간	의무의 시작과 종료 시점을 정합니다. 이를 놓치면 만료일을 계산할 수 없습니다.	개시일, 초기 계약 기간	시작일, 수습 기간 종료일
계약 금액 / 보상	총 지출 약정액입니다. 재무팀은 예측에, 조달팀은 지출 분석에 필요합니다.	총 수수료, 연간 계약 금액, 단위당 가격	급여, 보너스 구조, 주식 보상
지급 조건 및 일정	자금 이동 시기와 방법입니다. 여러 페이지에 걸친 표 형태가 많아 추출이 가장 까다롭습니다.	마일스톤 지급, 순 지급 조건, 청구 빈도	급여 지급 주기, 비용 정산 정책
갱신 및 해지	놓치면 가장 비용이 큰 필드입니다. 자동 갱신 통지를 놓치면 불리한 조건이 1년 더 연장될 수 있습니다.	자동 갱신 조건, 통지 기간, 편의 해지	통지 기간, 해지 조건, 정리 휴가
준거법 및 관할	어느 주 또는 국가의 법이 적용되고 분쟁이 어디서 해결되는지 결정합니다. 포트폴리오 수준의 위험 집중도 분석에 사용됩니다.	준거법, 관할 법원, 중재 조항	준거 주법, 분쟁 해결
주요 의무 및 인도물	각 당사자가 수행하기로 약속한 사항입니다. 의무를 추출하면 계약이 책임 관리 도구가 됩니다.	서비스 범위, SLA, 기한이 있는 인도물	직책, 업무, 보고 체계
책임 및 면책	위험 노출도입니다. 어느 당사자가 어떤 위험을, 얼마까지 부담하는지 나타냅니다.	책임 한도, 면책 범위, 보험 요건	경업 금지 범위, 기밀 유지, 지식재산권 양도

상업 계약과 고용 계약의 차이는 추출 대상이 다르기 때문에 중요합니다. 상업용 MSA와 고용 계약서 모두 "날짜"와 "당사자"를 포함하지만, 의사 결정을 좌우하는 필드는 다릅니다. 고용 계약에는 "책임 제한 한도"가 없지만, 조직에 동등하게 중요한 "수습 기간"과 "경업 금지 범위"가 있습니다. 헤더 수준이 아닌 조항 수준의 필드에 대해서는 법률 계약 추출 가이드를 참조하세요. 이 가이드는 계약 포트폴리오 전반에서 면책, 불가항력, 중재 조항과 같은 특정 조항을 식별하는 데 중점을 둡니다. 또한 여러 계약에서 특정 개별 필드를 추출해야 하는 팀을 위해 계약에서 특정 필드 추출에서 목표 지향적인 접근 방식을 다룹니다.

일괄 처리: 포트폴리오에서 스프레드시트로 한 번에

단일 계약 추출은 서명 전에 하나의 계약을 검토할 때 유용합니다. 그러나 추출의 진정한 가치는 일괄 처리, 즉 계약 포트폴리오를 업로드하고 통합된 스프레드시트 하나를 받는 과정에서 드러납니다. 이 워크플로는 계약 데이터를 보이지 않는 상태에서 실행 가능한 상태로 전환합니다.

계약 추출을 위한 일괄 워크플로는 다음 네 단계를 따릅니다:

계약서 일괄 업로드

PDF를 20개, 50개, 200개 한 번에 드래그하여 업로드하세요. 전자서명 PDF, 스캔된 계약서, Word 문서를 변환한 PDF 등 모든 형식을 함께 넣을 수 있습니다. 공급업체별 사전 분류, 파일명 변경, 폴더 정리가 필요 없습니다. 도구가 형식과 관계없이 각 파일을 독립적으로 읽습니다.

출력 열 정의

스프레드시트에 원하는 열 이름을 입력하세요: "계약 상대방", "발효일", "갱신일", "계약 금액", "준거법", "지급 조건", "책임 한도". 이 열 이름이 출력 파일의 헤더가 됩니다. 계약 유형별 템플릿 설정, 샘플 페이지 영역 지정, 레이블 데이터 학습이 필요 없습니다. 원하는 항목을 정의하면 AI가 각 문서에서 찾아냅니다.

AI가 계약서를 의미 단위로 읽음

비전 모델이 각 계약서의 모든 페이지를 스캔하여 요청된 필드와 일치하는 텍스트를 의미적 역할을 이해하며 찾고, 올바른 열에 매핑합니다. 페이지 위치, 섹션 번호, 작성 스타일에 관계없이 처리됩니다. 준거법 조항이 한 계약서에서는 3페이지, 다른 계약서에서는 42페이지에 있어도 두 값 모두 "준거법" 열에 입력됩니다. 부록의 3페이지에 걸친 지급 일정도 조각난 텍스트 블록이 아닌 일관된 테이블 행으로 추출됩니다.

내보내기 또는 시트에 쓰기

통합 스프레드시트를 Excel(XLSX), CSV, JSON으로 다운로드하거나 결과를 Google Sheets에 직접 작성하세요. 각 계약서는 한 행을 차지하고, 각 필드는 고유한 열을 갖습니다. 갱신일 기준으로 정렬하여 다음 분기에 만료되는 계약을 확인하고, 준거법으로 필터링하여 특정 관할권의 계약을 분리하며, 계약 상대방별로 피벗하여 공급업체별 총 지출을 확인하세요. 지속적인 계약 포트폴리오 관리와 갱신 추적이 필요한 팀은 계약 갱신 및 만료 일괄 추적을 참조하세요.

JPG/PNG/PDF AI 추출

파일은 안전하게 처리되며 저장되지 않습니다.

내보내기 및 연동: 추출된 계약 데이터 활용 방법

추출된 계약 데이터가 담긴 스프레드시트만으로도 유용하지만, 계약 관련 의사 결정이 이루어지는 시스템에 연동되면 더욱 강력해집니다.

Excel 또는 Google Sheets에서 즉시 분석. 계약이 행으로, 필드가 열로 정리되면 모든 스프레드시트 작업이 계약 관리 작업이 됩니다. 갱신일 기준 내림차순 정렬로 곧 만료될 계약을 확인하고, 준거법이 "캘리포니아"인 계약만 필터링하여 관할권별 의무를 검토하며, 상대방별 피벗 테이블로 공급업체당 총 지출 약정액을 파악하세요. 기존에는 200개의 PDF를 열어야 했던 작업이 이제는 일반 데이터 분석과 동일한 방식으로 가능합니다.

CLM 또는 계약 저장소에 입력. 조직에서 계약 라이프사이클 관리(CLM) 플랫폼을 사용한다면, 추출된 데이터가 마이그레이션의 핵심입니다. CLM 도입 시 가장 흔한 장애물은 기존 계약 데이터를 시스템에 입력하는 작업이며, 수동 입력이 대안일 경우 프로젝트가 지연됩니다. 데이터 추출은 "폴더에 500개의 계약서가 있다"는 상태에서 "시스템에 구조화된 데이터가 있다"는 상태로의 전환을 가능하게 하며, 법률 비서가 직접 입력할 필요가 없습니다. 전체 CLM 도입이 필요한지 고민 중인 조직은 엔터프라이즈 계약 플랫폼 없이 문서 추출을 통해 가벼운 추출 도구로 충분한 경우를 확인하세요.

캘린더 및 알림 연동. 추출된 날짜(갱신일, 해지 통지 마감일, 요율 검토 기간 등)를 캘린더 시스템이나 자동 알림에 연동할 수 있습니다. 갱신을 90일 전에 인지한 경우와 자동 갱신 직후에 알게 된 경우의 차이는 종종 연간 계약 금액 전체입니다. 소규모 법인 및 개인 변호사의 경우, 개인 변호사를 위한 저렴한 계약 추출에서 비용 효율적인 날짜 추적 방법을 확인하세요.

부서 간 접근. 계약 데이터는 법무팀만의 자산이 아닙니다. 조달팀은 지급 조건과 지출 약정을, 재무팀은 발생 비용 계산 및 예측을 위한 계약 금액을, 영업팀은 고객 계약의 독점 조항을 이해해야 합니다. 추출된 데이터가 PDF 내부가 아닌 스프레드시트에 저장되면, 계약과 관련된 모든 부서가 법무팀의 요약을 기다리지 않고 데이터에 접근할 수 있습니다. 특히 조항 식별을 위해 대량 계약을 처리하는 팀은 소규모 로펌을 위한 일괄 계약 조항 추출에서 조항 수준 워크플로를 확인하세요.

계약 추출 도구 선택 방법

추출 도구는 기본 OCR 래퍼부터 AI 기반 플랫폼까지 다양합니다. 특히 가장 까다로운 문서 유형인 계약의 경우, 선택 기준은 인보이스나 양식보다 훨씬 엄격합니다. 실제로 작동하는 도구와 지속적인 관리가 필요한 도구를 구분하는 다섯 가지 기준은 다음과 같습니다.

1. 템플릿 및 학습 불필요. 공급업체별로 템플릿을 만들거나 샘플 계약으로 모델을 학습시켜야 하는 계약 추출 도구는 추출이 아닌 템플릿 관리에 가깝습니다. 이런 도구는 가장 필요할 때, 즉 새로운 상대방이 한 번도 본 적 없는 형식의 계약을 보낼 때 바로 작동을 멈춥니다. 공급업체에 물어보세요: "한 번도 접해본 적 없는 상대방의, 한 번도 본 적 없는 형식으로 작성된 MSA를 드리면, 설정 없이 첫 시도에 상대방 이름, 발효일, 준거법, 종료 조건을 추출할 수 있습니까?" 만약 답변에 템플릿 생성, 모델 학습, 추출 영역 정의가 포함된다면, 이는 설정 오버헤드를 구매하는 것입니다.

2. 부속서와 수정안 처리를 포함한 전체 문서 읽기. 계약은 긴 문서이며, 필요한 데이터는 1페이지에 있는 경우가 드뭅니다. 지급 일정은 부속서에 있고, 수정안 조항은 본문의 조항을 대체합니다. 처음 몇 페이지만 읽거나 각 페이지를 독립적으로 처리하는 도구는 부속서 B의 수수료 일정과 수정안 1의 갱신 조건을 놓칠 것입니다. 가장 짧은 계약이 아닌, 부속서 3개와 수정안 2개가 포함된 가장 긴 계약으로 테스트하세요.

3. 여러 페이지에 걸친 지급 일정을 처리하는 테이블 추출. 수수료 일정, 마일스톤 지급, 임대료 인상 테이블은 병합된 셀과 일관되지 않은 레이아웃으로 여러 페이지에 걸쳐 있어 가장 어려운 추출 과제입니다. 많은 도구가 계약 가치를 단일 숫자로 추출하지만, 그 아래 12개 행의 지급 일정은 추출하지 못합니다. 테이블이 가장 많은 계약으로 이를 테스트하세요. 도구가 "계약 가치: 150,000달러"를 반환하지만 지급 일정을 구조화된 행으로 출력하지 못한다면, 데이터의 일부만 제공하는 것입니다.

4. 통합 출력이 가능한 일괄 처리. 워크플로우가 중요합니다. 50개의 계약을 한 번에 업로드하고 하나의 스프레드시트를 받을 수 있습니까? 일괄 처리는 "이 도구는 계약당 시간을 절약한다"와 "이 도구는 전체 포트폴리오를 처리한다"의 차이를 만듭니다. 출력은 단일 테이블(계약당 한 행, 모든 필드는 열로 구성)이어야 하며, 수동 병합 없이 즉시 분석할 수 있어야 합니다.

5. 마케팅 숫자가 아닌 정직한 정확도. 계약에 대한 "99% 정확도"는 일반적으로 깨끗하고 디지털로 생성된 PDF의 Tier 1 헤더 필드(당사자, 날짜)를 의미하며, 이는 가장 쉬운 추출 사례입니다. 조항 수준 추출(면책 범위, 불가항력 조건)과 테이블 추출(지급 일정)은 더 어렵고, 신뢰할 수 있는 공급업체는 어떤 필드 유형이 어떤 정확도로 추출되는지 알려줘야 합니다. 유일하게 의미 있는 정확도 테스트는 자체 계약, 특히 지저분한 계약(2015년 스캔 계약서, 수기 수정안이 있는 계약, 익숙하지 않은 상대방의 여러 부속서가 포함된 MSA)을 실행하는 것입니다. 공급업체가 데모에서 최악의 문서로 테스트하는 것을 허용하지 않는다면, 그것이 정확도의 한계입니다.

다양한 계약 포트폴리오에서 조항 식별이라는 특정 과제를 추출 도구가 어떻게 처리하는지에 대한 자세한 내용은 법률 계약 추출의 의미를 참조하세요. 이는 필드 수준 계약 추출에 대응하는 조항 수준의 내용입니다.

자주 묻는 질문

데이터 추출은 어떤 유형의 계약을 처리할 수 있나요?

최신 추출 도구는 MSA, SOW, NDA, 고용 계약, 임대 계약, 공급업체 계약, SaaS 구독, 유통업체 계약, 업무 위탁 계약 등 모든 유형을 처리합니다. 템플릿이 아닌 의미 기반으로 읽기 때문에 계약 유형별 설정 없이도 다양한 계약에 적용됩니다. 실질적인 제한은 계약 수가 아니라 다양성입니다. 50개 다른 상대방의 50개 다른 계약 유형도 동일한 템플릿 50개만큼 안정적으로 추출됩니다.

디지털 PDF뿐만 아니라 스캔된 PDF도 추출이 가능한가요?

네 — 추출 도구가 텍스트 레이어 기반 OCR이 아닌 시각 기반 AI를 사용한다면 가능합니다. 시각 기반 도구는 페이지의 시각적 형태를 읽기 때문에 2012년 스캔 계약서, 지난주에 디지털 서명된 PDF, 인쇄된 텀 시트의 휴대폰 사진도 동일하게 처리됩니다. 제한 요소는 이미지 품질입니다. 사람이 읽기 어려울 정도로 흐리거나, 기울어지거나, 저해상도인 스캔본은 AI도 마찬가지입니다. 합리적으로 읽을 수 있는 스캔본의 정확도는 디지털 PDF와 비슷합니다.

계약 데이터 추출이 변호사 검토를 대체할 수 있나요?

아니요 — 경계를 명확히 하는 것이 중요합니다. 추출은 계약을 읽고 당사자, 날짜, 금액, 조항 내용 등 구조화된 데이터를 출력합니다. 검토는 위험을 평가하고, 조건을 협상하며, 서명 여부를 결정합니다. 추출이 대체하는 것은 검색 단계입니다. 분석 전에 조항을 찾는 데 소요되던 84분을 없애줍니다. 변호사는 여전히 분석하고 조언합니다. 하지만 무제한 면책 조항이 있는 계약 5개를 찾기 위해 50개를 모두 읽는 대신, 추출 도구가 그 5개를 먼저 식별해 주므로 변호사는 문서 검색이 아닌 법적 판단에 시간을 씁니다.

계약 데이터 추출의 정확도는 사람의 검토와 비교했을 때 어떤가요?

당사자명, 발효일, 준거법 같은 1계층 헤더 필드의 경우, 최신 AI 추출은 명확하고 읽기 쉬운 계약에서 95~99%의 정확도를 보입니다. 지급 일정, 복잡한 수수료 구조의 계약 가치 같은 2계층 재무 필드는 계약마다 표현 방식이 달라 정확도가 85~95%로 낮습니다. 조항 수준 추출(예: 면책 조항이 상한선 있는지 여부)의 정확도는 80~90%이며, 계약서 작성의 명확성에 크게 좌우됩니다. 고가치 또는 고위험 계약의 경우 추출 결과를 사람이 검토하는 것이 올바른 관행입니다. 효율성 향상은 사람이 200개 계약을 처음부터 읽는 대신 미리 채워진 스프레드시트를 검토한다는 점에 있습니다.

한 번에 몇 개의 계약을 처리할 수 있나요?

최신 배치 처리 도구는 한 번의 업로드로 수십 또는 수백 개의 계약을 처리합니다. 파일 수에 엄격한 제한은 없습니다. 실질적인 제약은 처리 시간입니다. 각 계약은 처리하는 데 몇 초가 걸리므로 100개 계약은 길이에 따라 10~20분이 소요될 수 있습니다. 출력은 계약당 한 행씩 있는 통합 스프레드시트 하나입니다. 각 파일을 열고 개별적으로 데이터를 추출한 후 수동으로 결과를 병합하는 대안은 자동화의 목적을 무색하게 하는 작업 흐름입니다.

추출 도구가 수정 조항과 부속서가 포함된 계약을 처리할 수 있나요?

네, 도구가 전체 문서를 하나의 논리적 단위로 읽을 수 있다면 가능합니다. MSA, SOW, 그리고 두 개의 수정 조항으로 구성된 다중 문서 계약의 경우, 파일 간에 걸쳐 읽고 수정 조항을 원본 계약과 연결해야 합니다. 추출 과정에서 수정 조항의 업데이트된 종료일이 원본을 재정의하며, 부속서 B의 요금표가 동일 계약의 지급 조건의 일부임을 인식해야 합니다. 각 파일을 독립적으로 처리하고 문서 간 인식이 없는 도구는 상충되는 날짜와 불완전한 지급 데이터를 표시합니다.

계약 데이터 추출과 계약 라이프사이클 관리(CLM)는 같은 것인가요?

아닙니다. CLM 플랫폼은 계약 생성, 협상, 체결, 보관, 의무 추적 등 전체 계약 여정을 관리하며, 일반적으로 자체 데이터베이스를 채우기 위한 일부 추출 기능을 포함합니다. 추출은 데이터 단계로, 계약을 읽고 구조화된 필드를 출력하는 것입니다. CLM은 워크플로 단계로, 그 전후에 발생하는 작업을 관리합니다. 추출은 CLM에 데이터를 공급하거나, 전체 CLM 플랫폼을 구현하지 않고 구조화된 계약 데이터가 필요한 팀을 위해 독립적으로 운영될 수 있습니다. 이 둘은 상호 보완적이며 경쟁 관계가 아닙니다.

추출 도구가 면책 조항과 책임 제한 조항 같은 유사한 조항을 구분할 수 있나요?

일반적으로 명확히 구분되는 조항의 경우 가능합니다. 면책(한 당사자가 상대방의 손실을 부담하기로 동의하는 것)과 책임 제한(한 당사자가 회수할 수 있는 금액을 제한하는 것)은 다른 법적 언어를 사용하며 다른 목적을 가집니다. 최신 AI 추출 도구는 이를 구분할 수 있지만, 두 조항이 동일한 섹션에 나타나거나, 복잡한 표준 조항에 뒤섞여 있거나, 계약의 다른 부분에 있는 정의를 상호 참조하는 경우 정확도가 떨어집니다. 이러한 경우 AI의 조항 분류에 대한 사람의 검토가 올바른 관행입니다.

"필드" 추출과 "조항" 추출의 차이점은 무엇인가요?

필드는 단일 스프레드시트 셀에 들어가는 개별 데이터 포인트입니다: 계약 상대방 이름, 발효일, 계약 금액. 조항은 법적 텍스트 블록입니다: 전체 면책 조항, 불가항력 정의, 전체 지급 조건 섹션. 필드 추출은 "계약 금액은 얼마인가?"라는 질문에 답합니다. 조항 추출은 "정확한 면책 문구를 보여줘"라는 질문에 답합니다. 대부분의 추출 도구는 둘 다 수행할 수 있지만, 조항 추출은 AI가 조항의 시작과 끝을 결정해야 하기 때문에 더 어렵습니다. 특히 관련 조항이 여러 섹션에 걸쳐 혼합된 계약의 경우 더욱 그렇습니다.

계약 데이터를 보이게 만들기

데이터는 이미 계약서 안에 있습니다. 문제는 부재가 아니라 접근성입니다. 모든 서명된 계약서에는 비즈니스 의사 결정을 이끄는 상대방 이름, 날짜, 금액, 의무 사항이 담겨 있습니다. 하지만 그 데이터가 공유 드라이브의 PDF 안에 갇혀 있는 한, 이를 필요로 하는 시스템과 사람에게는 보이지 않습니다. World Commerce & Contracting의 조사 결과 — 계약 관리 부실로 인한 수익 손실 9.2% — 는 나쁜 계약 때문이 아닙니다. 데이터가 스프레드시트에 한 번도 입력되지 않은 좋은 계약 때문입니다.

계약 데이터 추출이 그 격차를 해소합니다. CLM 도입이 필요하지 않습니다. 수개월의 템플릿 설정이 필요하지 않습니다. 필요한 필드가 무엇인지 묻고, 정렬, 필터링, 조치가 가능한 구조화된 열로 제공합니다. 팀이 수십 개 이상의 계약을 관리하고 파일 간에 특정 조항을 찾는 데 정기적으로 시간을 소비한다면, 추출은 워크플로를 "열어서 읽기"에서 "필터링하고 결정하기"로 바꾸는 단 한 걸음입니다.

전체 개념은 계약 데이터 추출 기초 가이드에서 시작하거나, 샘플 계약을 업로드하여 템플릿, 교육, 설정 없이 자체 문서에서 필드 수준 추출이 어떻게 이루어지는지 확인해보세요.