이미 디지털화된 임상 데이터가 여전히 수작업으로 추출되는 이유

미국 병원에 들어가 보면, 임상 문서는 실질적으로 종이가 없습니다. 영상의학 보고서는 PACS 내에서 PDF로 생성됩니다. 퇴원 요약은 EHR에 입력됩니다. 수술 기록은 받아쓰고, 전사한 후 업로드됩니다. 그런데도 같은 건물 어딘가에서는 간호사가 컴퓨터 앞에 앉아 똑같은 보고서를 한 줄 한 줄 읽으며, 같은 환자의 차트에서 이번 주에만 세 번째로, 임상 레지스트리 입력 양식에 데이터를 하나하나 수동으로 입력하고 있습니다. 문서는 디지털입니다. 데이터 추출은 그렇지 않습니다.

임상 문서화의 두 평행 세계

임상 문서화는 서로 거의 소통하지 않는 두 정보 생태계에 존재합니다. 첫 번째는 구조화된 데이터입니다: 체크박스, 드롭다운 메뉴, 라디오 버튼. 진단을 분류하는 ICD-10 코드, 시술을 설명하는 CPT 코드, 데이터베이스 필드에 입력되는 검사 수치(헤모글로빈 12.3 g/dL, 크레아티닌 0.9 mg/dL). 이것이 EHR이 관리하도록 만들어진 세계입니다. 검색 가능하고, 질의 가능하며, 보고 가능합니다. 그러나 양과 임상적 풍부함 측면에서 보면, 이것은 수영장의 얕은 쪽에 불과합니다.

두 번째 세계는 비구조화된 데이터입니다: 임상의가 본 것, 생각한 것, 행한 것을 설명할 때 실제로 생성하는 서술적 산문입니다. "우상엽에 1.2cm의 가시돌기 결절이 있으며, 관련 흉막 견인이 동반됨 — CT 유도 생검 권장"이라고 말하는 방사선 보고서. 12일간의 입원 기간을 초기 증상부터 합병증, 퇴원 후 지시사항까지 서술하는 퇴원 요약. 800단어의 수술 세부 사항으로 어떤 혈관이 어떤 이식편으로 어떤 조건에서 우회되었는지 정확히 설명하는 수술 기록. 세 교대 근무에 걸친 임상의의 진화하는 평가를 포착하는 경과 기록.

이 두 번째 세계, 즉 서술적 세계에는 건강 기록에서 임상적으로 의미 있는 모든 데이터의 약 80%가 포함된 것으로 추정됩니다. 여기에는 의사 결정 뒤에 있는 추론, 진단 코드가 평탄화하는 미묘함, 검사 수치를 단순한 숫자가 아닌 실행 가능하게 만드는 맥락이 담겨 있습니다. 그리고 기본적으로 병원의 모든 보고 도구, 분석 플랫폼 및 자동화 워크플로우에서 보이지 않습니다.

구조화된 세계는 "무슨 일이 일어났는지"를 약어로 답합니다. 비구조화된 세계는 "왜 일어났는지, 무엇을 의미하는지, 다음에 무엇이 일어나야 하는지"를 답합니다. 문제는 기계가 첫 번째만 읽을 수 있다는 것입니다.

EHR가 이 문제를 해결하지 못한 이유

2009년 HITECH 법이 미국 병원의 EHR 도입률을 9%에서 90% 이상으로 끌어올린 이후로 지속된 합리적인 가정이 있습니다. 전자 건강 기록이 데이터 접근성 문제를 해결했어야 한다는 것입니다. 임상 정보가 디지털화되면 기계가 읽을 수 있어야 하고, 기계가 읽을 수 있으면 쿼리 가능해야 하며, 쿼리 가능하면 수동 추출이 불필요해져야 합니다.

이 가정은 첫 단계에서 무너집니다. EHR은 임상 지식 시스템이 아닙니다. 이는 청구에 최적화된 트랜잭션 데이터베이스로, 환자 진료 기록을 디지털화하는 주된 목적이 청구서 생성이었던 시대에 구축되었습니다. Epic, Cerner, Meditech, Allscripts 등 모든 주요 EHR 플랫폼에 내재된 핵심 엔지니어링 결정은 임상 기록을 구조화된 필드가 아닌 비구조화된 첨부 파일로 저장한다는 것입니다. 병원 PACS에서 생성된 방사선 보고서는 환자 기록에 첨부됩니다. 자유 텍스트 상자에 입력된 퇴원 요약은 텍스트 블롭으로 저장됩니다. 수술 기록은 PDF로 업로드됩니다.

EHR은 이러한 문서를 저장합니다. 하지만 이를 구문 분석하지 않습니다. 내용을 색인화하지 않습니다. "우상엽에 1.2cm의 침상 결절"이라는 문구를 쿼리로 검색할 수 있는 구조화된 데이터 요소에 매핑하지 않습니다. 데이터베이스 관점에서 방사선 보고서, 퇴원 요약, 수술 기록은 1998년 종이 차트의 스캔 복사본과 동일한 범주에 속합니다. 디지털화되었지만 구조화되지 않았고, 저장되었지만 검색할 수 없습니다.

Journal of Medical Internet Research(2025)에 게재된 연구는 180만 명의 환자를 대상으로 구조화된 코드와 자유 텍스트 기록 간의 정보 중복을 분석했습니다. 그 결과, ICD 코드, 시술 코드, 검사 결과 등 구조화된 데이터만으로는 임상 정보의 일부만을 포착할 수 있었습니다. 자유 텍스트 기록에는 "환자 치료의 미묘한 차이를 담은 상세한 설명"이 포함되어 있었습니다. EHR의 구조화된 필드는 환자가 CABG(관상동맥 우회술)를 받았다는 사실을 알려줍니다. 반면 수술 기록은 CABG가 어떻게 이루어졌는지 알려줍니다. 이는 질 측정, 위험 조정, 임상 연구에 매우 중요한 정보입니다.

이는 특정 EHR 공급업체의 실패가 아닙니다. 이는 EHR이 설계된 목적의 결과입니다. EHR은 청구 및 규제 보고를 위한 구조화된 데이터를 수집하도록 구축되었습니다. 서술형 데이터에서 의미를 추출하도록 설계되지 않았습니다. 임상 데이터의 80%가 자유 텍스트에 존재하는 것은 버그가 아닙니다. 이는 의료진이 인간이 복잡한 정보를 전달하는 방식, 즉 드롭다운이 아닌 문장으로 치료 과정을 기록하는 자연스러운 결과입니다.

EHR은 임상 기록을 디지털화합니다. 구조화하지는 않습니다. Epic에 저장된 방사선 판독 기록에서 데이터를 추출하려면, 종이 파일에 타자된 보고서에서 데이터를 추출하는 것과 동일한 인지적 노력이 필요합니다. 즉, 관련 정보를 읽고, 해석하고, 별도 시스템에 옮겨 적어야 합니다. 매체는 바뀌었지만, 수작업은 그대로입니다.

아무도 이야기하지 않는 추상화 인력

EHR이 임상 기록을 검색 불가능한 덩어리로 저장하기 때문에, 병원은 해당 기록을 읽고 특정 데이터 포인트를 다른 시스템에 수동으로 입력하는 일을 전담하는 전문 직종을 고용합니다. 이들을 임상 데이터 추출자라고 부르며, 이들은 미국 의료 시스템에서 가장 큰 숨은 인건비 중 하나를 대표합니다.

임상 데이터 추출자는 일반적으로 등록 간호사(RN), 등록 건강 정보 기술자(RHIT), 또는 공인 종양 등록사(CTR)입니다. 즉, 환자 차트를 검토하고 질 보고, 임상 레지스트리, 연구, 규제 준수를 위한 핵심 데이터 요소를 추출하는 면허를 가진 임상의 또는 자격을 갖춘 건강 정보 전문가입니다. 이 작업은 임상 지식을 필요로 합니다: 수술 레지스트리를 추출하려면 수술 해부학을 이해해야 하고, 심장 레지스트리를 추출하려면 혈역학 데이터를 해석할 수 있어야 합니다. 가장 큰 임상 추출 아웃소싱 회사 중 하나인 American Data Network는 추출자의 핵심 업무를 "임상 노트, 검사 결과, 영상 보고서, 약물"을 검토하고 "해당 세부 사항을 구조화된 필드로 변환"하는 것이라고 설명합니다.

이 인력의 규모를 정확히 측정하기는 어렵습니다. 추출이 표준화된 직함이 아니라 품질 부서, 레지스트리 팀, 임상 연구 부서 내에 포함되어 있기 때문입니다. 그러나 경제적 측면은 병원 수준에서 확인할 수 있습니다. 2018년 매사추세츠 종합병원 레지스트리 운영팀의 발표 자료는 단일 학술 의료 센터에서 11개 외과 전문 학회 레지스트리의 인건비를 분석했습니다:

등록기관	필요 FTE 수	연간 환자 수	연간 인건비
STS-심장 (성인 심장 수술)	간호사 3명 + PSC 0.5명	1,300	약 $250,000–$300,000
ACS-NSQIP (수술 질)	간호사 1.5명 + 분석가 + 관리자	1,800	약 $120,000–$180,000
ACS-NTDB 및 ACS-TQIP (외상)	직원 3.5명 + 관리자 0.3명	2,500	약 $250,000–$350,000
STS-흉부	간호사 1명 + 관리자	1,000	약 $80,000–$120,000
SRTR (고형 장기 이식)	간호사 7.0–10.0명 + 관리자 1.5명	750	약 $500,000–$700,000

출처: 매사추세츠 종합병원, CMSS 발표 (2018). 보고된 FTE 범위를 기준으로 추정.

한 병원의 5개 등록기관에 연간 약 120만~170만 달러의 인건비가 소요되며, 이는 MGH가 FTE 데이터를 공개한 등록기관에 불과합니다. 대부분의 학술 의료기관은 8~15개의 등록기관에 참여합니다. 흉부외과학회 국가 데이터베이스만 해도 미국 내 성인 심장 수술의 95%를 포괄하며, 각 CABG 건당 200개 이상의 데이터 요소(수술 전 위험 요인, 수술 중 세부 사항, 퇴원 후 30일 결과)를 추출해야 합니다. 미국심장학회가 운영하는 NCDR 네트워크는 2,400개 이상의 병원이 참여하며, 심장 카테터 삽입, ICD 이식, 판막 시술 등을 포함한 6개 등록기관으로 구성됩니다.

2024년 여름, Carta Healthcare가 미국 병원의 임상 데이터 추출 담당자를 대상으로 실시한 설문조사에 따르면, 응답자의 50%가 업무 시간의 절반 이상을 수동 데이터 입력 및 추출에 사용하는 것으로 나타났습니다. 이 설문조사는 "우려스러운 역설: 임상의들은 등록 데이터베이스가 품질 및 프로세스 개선에 필수적이라고 보지만, 수동 데이터 추출이라는 부담스러운 작업이 이 전문가들을 한계로 몰아가고 있다"고 설명했습니다. 자동화에 대한 질문에 45%는 자동화 도구가 조직의 추출 작업을 더 빠르게 만들고, 30%는 데이터 품질을 개선하며, 20%는 비용을 절감할 것이라고 답했습니다. 자동화에 대한 요구는 이론상 자동화가 위협할 수 있는 바로 그 직무를 수행하는 추출 담당자들로부터 나오고 있습니다. 실제로 추출해야 할 데이터의 양은 인력이 감당할 수 있는 속도보다 빠르게 증가하고 있습니다.

Reddit에서는 더 직설적인 반응이 나옵니다. 한 임상 연구 전문가는 "등록 데이터베이스에 환자 데이터를 입력하는 데 몇 시간을 썼는데, 이 데이터베이스에 거의 100명의 환자가 있다는 것을 알게 되었습니다(모두 밀려 있음)"라고 글을 올렸습니다. r/clinicalresearch의 다른 게시물에서는 간단히 "일반적으로 데이터 입력이나 환자 기록 확인에 얼마나 많은 시간이 소요되나요?"라고 묻습니다. 이는 일상 업무에 너무 깊이 박혀 아무도 기준 답변을 갖고 있지 않은 워크플로 문제를 나타내는 질문입니다. 그 이유는 답변이 "하루의 대부분"이기 때문입니다.

추정해 보면 경제적 규모가 드러납니다. 연봉 7만 5천 달러를 받는 임상 데이터 추출자가 보고서를 읽고, 특정 값을 찾아 다른 시스템에 입력하는 업무에 시간의 50%를 사용한다면, 이는 연간 약 3만 7천 5백 달러의 인건비가 사실상의 전사 작업에 소요되는 셈입니다. 단일 다중 레지스트리 대학 병원의 추출 인력(10~20명의 정규직)으로 확대하면 병원당 연간 37만 5천 달러에서 75만 달러에 달합니다. NCDR 참여 병원 2,400곳만 고려해도, 수동 레지스트리 추출의 총비용은 보수적으로 추산해 연간 수십억 달러에 이르며, 이는 숙련된 임상 전문가가 환자 대면 업무 대신 데이터 전사 작업을 수행하는 기회비용은 포함하지 않은 수치입니다.

임상 데이터 추출자는 EHR과 레지스트리 사이의 인간 구조화 계층입니다. 이들의 업무가 존재하는 이유는 두 시스템(전자의무기록과 레지스트리)이 모두 임상 데이터를 보유하고 있지만, 사람이 하나를 읽고 다른 하나에 입력하지 않고는 데이터를 교환할 수 없기 때문입니다. 추출 인력은 기술 스택의 일시적 공백이 아닙니다. 그것이 바로 기술 스택 그 자체입니다.

수작업 입력은 그만 — AI가 대신 읽어드립니다

이미지나 PDF를 업로드하세요 — 10초 만에 정형 데이터로

지금 체험하기 →

회원가입 불필요 · 카드 불필요 · 10초 내 결과

한 명의 환자, 하나의 차트, 다섯 개의 등록부 — 그리고 다섯 번의 별도 데이터 입력 작업

추출 작업의 경제성은 다른 산업에서는 찾아볼 수 없는 임상 등록부의 구조적 특징으로 인해 배가됩니다: 여러 등록부가 동일한 원본 문서에서 데이터를 가져오지만, 서로 데이터를 공유하지 않습니다.

관상동맥 우회술을 받는 환자를 생각해 보십시오. 흉부외과학회(STS) 성인 심장 수술 데이터베이스는 이 환자에 대해 200개 이상의 데이터 요소를 요구합니다: 수술 전 위험 요인(당뇨 상태, 박출률, 이전 PCI), 수술 중 세부 사항(우회술 수, 대동맥 차단 시간, 내유동맥 사용), 그리고 30일 결과(사망, 뇌졸중, 흉골 심부 감염, 신부전, 장기 환기).

동일한 환자의 차트에는 동일한 수술 기록이 포함되어 있습니다. 그러나 이 환자는 NCDR CathPCI 등록부에도 추출될 수 있습니다 — 수술 전 심도자술을 받았기 때문입니다 — 그리고 해당 등록부는 자체 데이터 사전과 고유한 필드 정의를 가지고 있습니다. 수술에 경피적 판막 시술이 포함된 경우 STS/ACC TVT 등록부가 또 다른 변수 세트를 추가합니다. 환자에게 수술실 재진입이 필요한 합병증이 발생한 경우 ACS NSQIP 수술 품질 등록부가 적용될 수 있습니다. 병원이 환자의 심혈관 질환에 대해 Get With The Guidelines(GWTG) 프로그램에 참여하는 경우, 이는 자체 추출 요구 사항을 가진 다섯 번째 등록부입니다.

5개 등록기관 모두 동일한 원천 문서를 읽습니다. 동일한 방사선 판독지, 동일한 수술 기록, 동일한 퇴원 요약, 동일한 검사 수치. 그리고 미국의 거의 모든 병원에서, 5개의 서로 다른 데이터 추출 워크플로우 — 종종 서로 다른 추출자가 나누어 맡거나, 때로는 같은 사람이 동일한 작업을 다섯 번 반복 — 가 중복되는 데이터 포인트를 수동으로 추출하여 5개의 개별 등록기관 제출 플랫폼에 입력합니다.

MGH 데이터가 이를 보여줍니다. 단일 병원이 11개의 수술 등록기관을 운영하며, 인력 요구량은 0.5 FTE(연간 500건 이하의 소규모 등록기관)에서 10 FTE(연간 750건의 이식 등록기관)까지 다양합니다. 동일한 임상 개념에 대해서도 등록기관마다 변수 정의가 다른 경우가 많습니다. 한 등록기관은 '수술 후 신부전'을 특정 크레아티닌 기준치로 정의하는 반면, 다른 등록기관은 다른 기준치나 시간 범위를 사용합니다. 건당 추출 시간은 등록기관의 복잡성과 환자의 임상 경과에 따라 15분에서 4시간까지 소요됩니다.

이는 HL7 FHIR로 해결할 수 있는 기술적 상호운용성 문제가 아닙니다. FHIR은 시스템 간 데이터 전송을 표준화할 수 있습니다. 즉, 시스템 A가 시스템 B에 검사 수치를 보낼 때 두 시스템이 전송 형식에 동의하도록 하는 것입니다. FHIR이 할 수 없는 것은 서술형 문단을 구조화된 필드로 바꾸는 일입니다. '1.2cm의 가시 결절'이라고 적힌 방사선 판독지를 읽어 '최대 직경의 종양 크기'라는 등록기관 필드를 채울 수 없습니다. 산문에서 구조화된 데이터로의 변환은 여전히 인간 판독자 또는 의미 추출이 가능한 AI 시스템이 필요합니다. 상호운용성 표준은 전송 문제를 해결했습니다. 구조화 문제는 해결하지 못했습니다.

한 환자의 임상 문서 하나가 다섯 개 이상의 등록기관에 제공될 수 있으며, 각 기관은 동일한 원천 자료에서 별도의 추출 작업을 요구합니다. 이러한 중복 노동은 단순한 오차가 아닙니다. 이는 각 등록기관이 독립적인 데이터 수집 사일로로 구축되어, 각각 고유한 데이터 사전, 필드 정의 및 제출 프로토콜을 가진 시스템의 구조적 특징입니다.

아이러니: 이미 디지털화되었지만, 구조화되지 않음

헬스 IT 분야에는 과제가 "디지털화" — 종이 기록을 컴퓨터로 옮기는 것이라는 지속적인 서사가 있습니다. 이 서사는 2005년, 대부분의 병원이 종이 차트를 사용하고 HITECH 법이 아직 시행되지 않았을 때는 타당했습니다. 하지만 오늘날에는 더 이상 맞지 않습니다. 미국 병원의 90% 이상이 EHR을 사용합니다. 영상의학과는 10년 넘게 필름 없이 운영되어 왔으며, 대부분의 방사선 보고서는 디지털 PACS-to-EHR 워크플로 내에서 완전히 생성, 서명, 배포됩니다. 퇴원 요약은 카세트테이프에 구술되지 않고 타이핑됩니다. 수술 기록은 템플릿화된 EHR 모듈에 입력됩니다. 가장 중요한 임상 문서 — 가장 풍부한 임상 정보를 담고 있는 서술 — 는 이미 디지털화되어 있습니다.

병목 현상은 디지털화가 아닙니다. 병목 현상은 구조화입니다.

그리고 구조화 병목 현상은 구체적이고 측정 가능한 형태를 띱니다. 이는 "이 환자는 CABG를 받았다" — EHR이 보고할 수 있는 구조화된 사실 — 와 STS 레지스트리가 해당 CABG가 어떻게 이루어졌는지에 대해 요구하는 200개의 개별 데이터 포인트 사이의 격차입니다. 그 200개의 데이터 포인트 각각은 임상 문서 어딘가에 존재합니다: 수술 전 박출률은 심초음파 보고서에, 이식편 수는 수술 기록에, 수술 후 인공호흡기 사용 기간은 ICU 플로우 시트에, 30일 사망률 상태는 퇴원 후 추적 전화 통화에서 자유 텍스트 메모로 문서화됩니다. 정보는 차트에 있습니다. 단지 기계가 읽을 수 있는 형식이 아닐 뿐입니다.

이는 전체 자동화 논의를 재구성합니다. 질문은 "임상 문서를 디지털화할 수 있을까?"가 아닙니다 — 그 배는 이미 떠났습니다. 질문은 "더 많은 사람을 고용하여 읽고 타이핑하지 않고도 이미 디지털화된 임상 서술에서 구조화된 데이터를 추출할 수 있을까?"입니다.

이 차이가 중요한 이유는, 문제를 해결하는 기술의 종류가 달라지기 때문입니다. 템플릿 기반 OCR — 페이지에서 필드가 "어디에" 있는지를 읽는 방식 — 은 고정된 레이아웃의 문서(표준화된 양식, 인쇄된 표, 정형화된 청구서)를 위해 설계되었습니다. 반면, 임상 수술 기록은 고정된 레이아웃이 없습니다. 매번 다르게 진행될 수 있는 수술 절차를 외과의가 서술한 이야기 형식의 문단입니다. 이야기에 템플릿을 적용할 수는 없습니다. 오직 이해할 수 있을 뿐입니다.

이 지점에서 현재 세대의 AI 추출 도구 — 템플릿 OCR 대신 비전 언어 모델(VLM)을 기반으로 구축된 — 가 논의에 등장합니다. VLM은 구혈률(ejection fraction)이 페이지 어디에 쓰여 있는지 알 필요가 없습니다. 구혈률이 무엇인지 — 즉, 일반적으로 "EF 45%" 또는 "LVEF 40-45%로 추정"과 같이 백분율 값으로 표현된다는 사실 — 를 알고, 이야기 속 어디에 나타나든 찾아내면 됩니다. 이것이 바로 의미 기반 추출이며, 좌표 기반 추출이 아닙니다. 이는 임상 개념이 다르게 표현된 이야기 속에서도 일관된 의미적 특징을 가지며, 언어를 이해하도록 훈련된 모델이 심장내과 의사가 "EF 40%"라고 썼든 "좌심실 수축 기능이 중등도로 감소, 추정 EF 40-45%"라고 썼든 "구혈률"을 찾을 수 있다는 원리에 기반합니다.

임상 데이터 추출의 핵심 비효율성은 문서가 종이에 있다는 데 있는 것이 아닙니다. 문서가 산문(prose) — 풍부하고, 미묘하며, 임상적으로 가치 있는 산문 — 으로 존재하는 반면, 그 데이터를 필요로 하는 시스템은 정형화된 필드를 요구한다는 데 있습니다. 디지털화 문제는 해결되었습니다. 수조 원의 수작업 비용이 발생하는 곳은 구조화 문제입니다.

임상 데이터 구조화의 실제 의미

병목 현상이 디지털화가 아닌 구조화라면, 해결책은 더 나은 스캐너나 더 빠른 타이피스트가 아닙니다. 인간 추출자가 임상 기록을 읽는 방식, 즉 각 문장의 의미를 이해하고, 어떤 개념이 어떤 레지스트리 필드에 매핑되는지 식별하며, 인간이 검증할 수 있는 구조화된 출력을 생성하는 시스템이 필요합니다.

이는 대부분의 문서 자동화 도구가 설계된 작업과 근본적으로 다릅니다. 송장과 구매 주문서를 처리하는 전통적인 문서 추출 도구는 양식의 레이아웃을 학습하는 방식으로 작동합니다. "송장 번호"는 오른쪽 상단에, "합계"는 마지막 페이지 하단에 있다는 것을 기억합니다. 동일한 공급업체의 새 송장이 도착하면 도구는 동일한 좌표를 읽고 동일한 필드를 추출합니다. 다른 공급업체가 다른 형식의 송장을 보내면 도구는 새 템플릿이 필요합니다.

임상 기록은 두 가지 측면에서 이 접근 방식을 무력화합니다. 첫째, 고정된 레이아웃이 없습니다. A 병원의 퇴원 요약과 B 병원의 퇴원 요약은 모두 기록이지만, 정보를 다르게 구성하고, 다른 제목을 사용하며, 다른 어휘로 임상 개념을 표현합니다. 둘째, 더 근본적으로 데이터 자체가 위치 기반이 아닙니다. 수술 기록의 특정 상자에서 "대동맥 차단 시간 47분"을 찾을 수 없습니다. 외과의가 선호하는 문체로 작성된, 다른 수술 세부 사항에 둘러싸인 문단 속에 포함되어 있습니다.

의미 기반 추출은 위치가 아닌 의미를 기준으로 작동하여 이 문제를 해결합니다. VLM은 전체 문서를 읽고, 어떤 임상 개념이 존재하는지 이해하며, 각 개념에 해당하는 값을 추출합니다. 개념이 페이지의 어디에 나타나든, 작성자가 어떤 표현을 사용했든, 문서가 타이핑된 PDF, 스캔된 보고서, 또는 EHR 인터페이스의 스크린샷이든 상관없습니다. 추출기는 각 병원의 문서 형식에 맞춰 재학습할 필요가 없습니다. 형식을 학습하는 것이 아니라 개념을 인식하기 때문입니다.

실제 워크플로는 "AI가 추출자를 대체한다"가 아닙니다. "AI가 읽기 단계를 처리하고, 추출자가 검증 단계를 처리한다"입니다. AI는 수술 기록, 퇴원 요약, 심초음파 보고서, 추적 관찰 기록에서 STS 심장 수술 등록부의 200개 이상의 필드를 채웁니다. 심장 수술 경험이 있는 간호사인 추출자는 채워진 필드를 검토하고, 추출 오류를 수정하며, 모호한 사례에 임상적 판단을 적용하고, 검증된 항목을 제출합니다. 추출자의 시간은 데이터를 찾는 작업(Carta 설문조사에 따르면 근무 시간의 50% 이상을 차지하는, 80페이지 분량의 EHR 문서를 스크롤하는 부분)에서 데이터를 검증하는 작업(임상 전문성이 필요하며 자동화할 수 없는 부분)으로 전환됩니다.

CABG 환자의 추출 작업이 현재 45~90분 소요되며, 수술 전·중·후 기록이 여러 EHR 모듈에 걸쳐 있는 상황에서, 초기 데이터 수집을 처리하는 의미 추출 도구를 사용하면 추출 담당자의 건당 시간을 절반 이상 줄일 수 있습니다. 계산은 간단합니다. 시간당 40달러를 받는 간호사 추출 담당자가 연간 1,300건의 CABG 사례를 처리할 때(MGH가 STS-Cardiac 레지스트리에 보고한 건수), AI 기반 추출로 건당 30분을 절약하면 연간 650시간의 간호사 노동이 절감됩니다. 이는 약 26,000달러의 인건비 절감으로 이어지며, 이 시간은 전사 업무에서 검증 및 질 개선 작업으로 전환됩니다. 5개 레지스트리, 2,400개 병원에 걸쳐 계산하면 그 총합은 무시할 수 없는 수준입니다.

자주 묻는 질문

왜 EHR은 기본적으로 임상 문서를 구조화된 형태로 제공하지 않나요?

드롭다운, 체크박스, 제한된 어휘와 같은 구조화된 데이터 입력은 근본적으로 임상의의 사고 및 의사소통 방식과 맞지 않기 때문입니다. 체크박스는 "흉통: 있음"을 포착할 수 있지만, "환자가 간헐적인 흉골하 흉부 압박감이 왼쪽 어깨로 방사되며, 운동 시 악화되고 휴식 시 완화되며, 약 2주 전에 시작되어 빈도가 증가하고 있음"을 포착할 수는 없습니다. 체크박스는 청구 코드를 포착합니다. 서술형은 임상적 추론을 포착합니다. 임상의가 구조화된 필드에만 문서화하도록 강요하면 기계는 읽을 수 있지만 다른 임상의는 사용할 수 없는 데이터가 생성됩니다. 이러한 절충은 현실적이며, 의료계는 올바르게도 기계 친화적인 문서보다 임상적으로 유용한 문서를 선택해 왔습니다.

일반 병원은 몇 개의 임상 레지스트리에 참여하나요?

지역 병원은 보통 3~5개의 레지스트리(뇌졸중(GWTG), 심장 시술(NCDR CathPCI), 수술 질(ACS NSQIP))에 참여합니다. 대형 학술 의료기관은 보통 10~15개의 레지스트리(심장 수술(STS), 외상(TQIP), 이식(SRTR), 종양(NCDB) 및 여러 전문 분야 레지스트리)에 참여합니다. MGH의 공개 데이터는 11개 레지스트리를 포함하며, 많은 학술 기관이 이보다 더 많습니다. 각 레지스트리는 데이터 추출 전담 인력을 필요로 하며, 레지스트리 간 데이터 공유가 없어 인력이 중복됩니다.

어떤 유형의 임상 문서에 수동 추출이 필요한가요?

추출 작업이 가장 많이 필요한 문서는 방사선 보고서, 퇴원 요약, 수술 기록, 경과 기록, 병리 보고서입니다. 이들은 서술이 많고 임상적으로 가장 풍부한 정보가 담긴 문서입니다. 검사 결과, 약물 처방, 활력 징후는 EHR이 직접 내보낼 수 있는 구조화된 데이터입니다. 수동 작업은 주로 구조화된 필드가 포착하도록 설계되지 않은 임상적 추론과 미묘한 차이가 포함된 자유 텍스트 문서에 집중됩니다.

AI가 방사선 판독문을 레지스트리 용도로 정확하게 읽을 수 있을까요?

비전 언어 모델은 방사선 판독문에서 종양 크기, 좌우 구분, 영상 기법, 추적 검사 권고 등 개별 데이터 포인트를 추출할 수 있으며, 추출자가 검증하는 1차 도구로 사용할 수 있을 정도의 정확도를 보입니다. 방사선 판독문에는 모호한 표현(확정적이지 않은 소견, '약'으로 표현된 측정값)이 포함되어 있어 인간의 해석이 필요하므로, 이는 임상 검토를 대체할 수 없습니다. 적절한 구조는 AI 지원 추출입니다. 모델이 필드를 채우고 추출자가 검증하는 방식입니다. 이는 Carta 설문조사에서 추출자들이 원했던 방식과 동일합니다. 즉, 임상적 판단을 대체하지 않으면서 수동 검색 시간을 줄여주는 도구입니다.

디지털화와 구조화의 차이점은 무엇인가요?

디지털화는 문서를 물리적 형태에서 전자적 형태로 변환하는 것을 의미합니다 — 종이 차트를 스캔하거나, EHR에서 PDF를 생성하거나, PACS에 이미지를 저장하는 것입니다. 이제 문서는 파일이 됩니다. 구조화는 해당 문서의 내용을 서술형 문장에서 개별적이고 질의 가능한 데이터 필드로 변환하는 것을 의미합니다 — 수술 기록의 문단에서 "대동맥 차단 시간: 47분"을 추출하여 "cross_clamp_time_minutes"라는 데이터베이스 필드에 값 "47"을 입력하는 것입니다. 디지털화는 사람이 읽을 수 있는 파일을 만듭니다. 구조화는 기계가 사용할 수 있는 데이터를 만듭니다. 임상 문서화의 문제는 디지털화는 이루어졌지만 구조화는 뒤따르지 않았다는 점입니다 — 이것이 병원에서 여전히 수동으로 이 작업을 수행하는 사람을 고용하는 이유입니다.

임상 문서의 구조적 진실: EHR은 임상 데이터를 디지털화했지만 구조화하지는 못했습니다. 레지스트리는 구조화된 데이터를 요구하지만 서술형 텍스트에서 이를 추출할 수 없습니다. 이 두 호환되지 않는 시스템 사이에는 수천 명의 간호사와 의료 정보 전문가가 수작업으로 그 간극을 메우고 있습니다. 한 번에 하나의 보고서, 하나의 필드, 하나의 레지스트리씩 — 종종 동일한 문서를 읽고 동일한 데이터 포인트를 다섯 개의 다른 시스템을 위해 다섯 번의 개별 세션에 걸쳐 추출합니다. 그 비용은 단순히 추출 인력의 급여만이 아닙니다. 환자 진료에서 데이터 전사로 전환된 임상 인력의 재능입니다. 병원이 감당할 수 없어 포기하는 레지스트리 참여 — 이로 인해 측정되지 않는 질적 격차입니다. 데이터가 예산이 부족해 구조화되지 못한 산문 속에 존재하기 때문에 제기되지 못하는 연구 질문들입니다. AI 추출이 이 문제의 모든 층위를 해결하는 것은 아닙니다 — 임상적 판단, 레지스트리 필드 정의, 지불자별 규칙은 여전히 인간의 영역입니다. AI가 해결하는 것은 처음부터 인간이 해서는 안 됐던 층위입니다: 문단을 읽고 답을 상자에 입력하는 일입니다.

이미 디지털화된 임상 데이터,
왜 아직도 수동으로 추출할까?

핵심 요약

임상 문서화의 두 평행 세계

EHR가 이 문제를 해결하지 못한 이유

아무도 이야기하지 않는 추상화 인력

한 명의 환자, 하나의 차트, 다섯 개의 등록부 — 그리고 다섯 번의 별도 데이터 입력 작업

아이러니: 이미 디지털화되었지만, 구조화되지 않음

임상 데이터 구조화의 실제 의미

자주 묻는 질문

왜 EHR은 기본적으로 임상 문서를 구조화된 형태로 제공하지 않나요?

일반 병원은 몇 개의 임상 레지스트리에 참여하나요?

어떤 유형의 임상 문서에 수동 추출이 필요한가요?

AI가 방사선 판독문을 레지스트리 용도로 정확하게 읽을 수 있을까요?

디지털화와 구조화의 차이점은 무엇인가요?

이미 디지털화된 임상 데이터,왜 아직도 수동으로 추출할까?

핵심 요약

임상 문서화의 두 평행 세계

EHR가 이 문제를 해결하지 못한 이유

아무도 이야기하지 않는 추상화 인력

한 명의 환자, 하나의 차트, 다섯 개의 등록부 — 그리고 다섯 번의 별도 데이터 입력 작업

아이러니: 이미 디지털화되었지만, 구조화되지 않음

임상 데이터 구조화의 실제 의미

자주 묻는 질문

왜 EHR은 기본적으로 임상 문서를 구조화된 형태로 제공하지 않나요?

일반 병원은 몇 개의 임상 레지스트리에 참여하나요?

어떤 유형의 임상 문서에 수동 추출이 필요한가요?

AI가 방사선 판독문을 레지스트리 용도로 정확하게 읽을 수 있을까요?

디지털화와 구조화의 차이점은 무엇인가요?

이미 디지털화된 임상 데이터,
왜 아직도 수동으로 추출할까?