영상의학 & 퇴원 요약 데이터 추출 방법
임상 감사를 위한
대부분의 병원 EHR은 10초 안에 영상의학 보고서나 퇴원 요약을 PDF로 내보낼 수 있습니다. 하지만 거의 모든 임상 정보 시스템이 할 수 없는 것, 즉 그 보고서 내부의 데이터를 구조화된 필드로 내보내는 것은 불가능합니다. 검사 유형, ICD-10 코드, 소견 단락, 퇴원 약물 목록: 모두 페이지에 존재하고 사람이 읽을 수 있지만, 누군가 PDF를 열고 직접 입력하지 않으면 개별 데이터 포인트로 추출할 수 없습니다. '데이터가 존재한다'와 '데이터를 사용할 수 있다' 사이의 이 간극 때문에 임상 레지스트리 추출, 품질 감사, 연구 데이터 수집에 예산 항목에 포함되지 않은 수백 시간이 소모됩니다.
핵심 요약
- 임상 레지스트리 케이스 하나를 수동으로 차트 추출하는 데 20~30분이 소요되며, 그 시간의 대부분은 PDF에 이미 표시된 검사 유형, ICD-10(진단) 코드 같은 필드를 다시 입력하는 데 쓰입니다.
- EHR(전자 건강 기록)은 방사선 및 퇴원 보고서를 사람이 읽을 수 있지만 병원 데이터베이스가 조회할 수 없는 서술형 PDF로 내보냅니다. 데이터는 디지털이지만 산문에 갇혀 있으며, 아무리 빠른 타이핑 속도로도 이 구조적 격차를 해소할 수 없습니다.
- 열 이름(검사 유형, 소견, 퇴원 약물)을 한 번만 정의하고 수백 개의 PDF를 업로드하면 ImageToTable.ai가 페이지 위치가 아닌 의미를 읽어 스프레드시트를 채워, 30분이 걸리던 작업을 30초 검증으로 바꿉니다.
두 가지 문서 유형, 하나의 데이터 추출 문제
방사선 보고서와 퇴원 요약은 환자의 입원 기간 양 끝에 위치합니다. 하나는 진단적 순간을 포착하고, 다른 하나는 전체 입원 과정을 요약합니다. 하지만 두 문서 모두 동일한 데이터 접근성 문제를 공유합니다. 둘 다 서술형 문서로 생성됩니다. 둘 다 임상 레지스트리, 연구 데이터베이스, 품질 감사에서 구조화된 값으로 필요한 필드를 포함합니다. 그리고 대부분의 병원 시스템에서, 두 문서 모두 구조가 전혀 유지되지 않은 채 PDF 형태로 EHR을 떠납니다.
방사선 보고서는 놀라울 정도로 일관된 내부 구조를 따릅니다. 미국방사선의학회(ACR) 진단 영상 소견 전달을 위한 진료 지침은 다섯 가지 표준 섹션을 정의합니다: 임상 적응증(검사가 처방된 이유), 기법(검사 방식, 조영제, 영상 매개변수), 비교(이전 검사와의 비교), 소견(방사선 전문의가 관찰한 상세 서술), 그리고 결론(간결한 진단적 결론). 유방영상보고데이터시스템(BI-RADS)은 구조화된 보고의 황금 표준으로 널리 인정받으며, 각 섹션이 개별적이고 질의 가능한 필드로 매핑될 때 어떤 결과가 나타나는지 보여줍니다. 하지만 BI-RADS는 예외입니다. 대부분의 방사선 보고서는 이러한 섹션을 일관되지 않게 사용하거나 전혀 사용하지 않는 자유 텍스트 구술문으로, 데이터는 산문 속에 갇혀 있습니다.
퇴원 요약서는 다른 형식이지만 마찬가지로 정해진 템플릿을 따릅니다. The Joint Commission 표준 RC.02.04.01은 입원 사유, 주요 소견, 시행된 시술 및 치료, 퇴원 시 환자 상태, 퇴원 약물, 그리고 사후 관리 지침이라는 6가지 핵심 요소를 규정합니다. Centers for Medicare & Medicaid Services는 퇴원 계획에 대한 참여 조건(Condition of Participation)에 따라 자체 요구 사항을 추가합니다. 모든 인증 병원은 이러한 요소를 포함하는 퇴원 요약서를 작성합니다. 그러나 형식(어떤 항목이 레이블로 표시되고 어떤 항목이 자유 텍스트에 포함되는지, 진단이 ICD 코드로 표시되는지 일반 언어 설명으로 표시되는지)은 병원마다, 심지어 같은 병원 내 부서마다 크게 다릅니다.
두 문서 유형 모두 알려진 구조를 따릅니다. 그러나 어느 유형도 그 구조를 추출 가능한 데이터로 제공하지 않습니다. 그 결과 임상 데이터 추출자, 연구 코디네이터, 질 개선 전문가가 PDF를 읽고 값을 스프레드시트에 복사하는 데 시간을 소비하는 업무 흐름이 발생합니다. 이는 임상적 판단과는 전혀 관련이 없으며, EHR 업계가 해결하지 못한 형식 격차와 모든 관련이 있습니다.
영상의학 판독지에서 추출할 항목
영상의학 판독지는 대부분이 생각하는 것보다 더 많은 텍스트를 포함합니다. 일반적인 조영증강 흉부 CT 판독지는 여러 문단으로 구성되지만, 레지스트리나 감사에 실제로 필요한 항목은 약 10개 열에 불과합니다. 나머지(시행한 방사선사의 이름, 방사선량 세부 정보, 판독 시간 기록)는 PDF에 남겨둘 수 있는 상황 정보입니다.
추출할 가치가 있는 10개 항목과 그 중요성은 다음과 같습니다:
| 항목 | 포함 내용 | 추출 이유 |
|---|---|---|
| 검사 유형 | CT, MRI, X-ray, 초음파, 핵의학 | 레지스트리 포함 기준은 종종 검사 방식별로 필터링합니다 |
| 신체 부위 | 흉부, 뇌, 복부, 사지, 척추 | 하위 그룹 분석을 위해 해부학적 영역별로 코호트를 구성합니다 |
| 임상 적응증 | 검사가 처방된 이유 (예: "폐색전증 배제") | 검사가 레지스트리 포함 기준과 일치하는지 확인합니다 |
| 기법 | 조영제 사용, 절편 두께, 특정 시퀀스 | 비교 분석을 위해 사례 간 기법을 표준화합니다 |
| 소견 | 전체 기술 — 방사선 전문의의 상세 관찰 내용 | 임상 사건 판정 및 NLP 분석을 위한 주요 출처 |
| 소견 | 간결한 진단 결론 (1-4줄) | 증례 분류의 가장 빠른 경로; 감사자가 주로 읽는 유일한 부분 |
| 판독의 | 판독 의사 이름 | 판독자 간 신뢰도 추적, 의사 수준 QA |
| 의뢰의 | 검사 의뢰 임상의 | 의뢰 패턴 분석, 부서별 활용 지표 |
| 검사일 | 영상 촬영일 | 모든 시간 분석의 기준점 |
| 보고일 | 보고서 최종 작성일 | 처리 시간 지표; 보고-조치 간격 분석 |
소견(Findings) 항목은 특히 주의를 기울여야 합니다. 일반적인 판독지에서 200~500단어에 달하는 이 항목은 다시 입력하기에는 너무 길고, 정보 밀도가 높아 무시하기 어렵습니다. "우하엽 경화"와 "폐색전증의 증거 없음"이라는 상반된 결론이 모두 존재하는 항목으로, 체크박스 기반 추상화 양식에서는 이를 단일 "비정상" 플래그로 축소하여 연구에 유용한 데이터의 특수성을 잃게 됩니다. 전체 서술을 추출하면 이러한 세분성을 보존할 수 있습니다. 필터링과 코딩은 나중에 수행할 수 있으며, 추출 단계에서 중요한 것은 어떤 것도 조기에 축소되지 않도록 하는 것입니다.
퇴원 요약에서 추출할 항목
방사선 보고서가 구조화된 서사라면, 퇴원 요약은 반구조화된 혼합형입니다 — 입원일, 퇴원일 같은 개별 필드와 병원 경과, 퇴원 지시 같은 자유 텍스트 섹션이 섞여 있습니다. 이러한 혼합적 특성 때문에 수동 추출이 매우 시간 소모적입니다. 개별 필드는 찾기 쉽지만 입력하기 지루하고, 자유 텍스트 섹션은 특정 값을 찾기 위해 독해 능력이 필요합니다 — 3번째 문단에 묻힌 진단명, 5번째 문단에 설명된 약물 변경 등.
등록, 연구, 감사에 중요한 10가지 필드:
| 필드 | 내용 | 추출 이유 |
|---|---|---|
| 환자 MRN | 의무기록번호 | 중복 제거 및 종적 추적을 위한 고유 환자 식별자 |
| 입원일 | 병원 입원 날짜 | 등록부 시간 기준점 계산을 위한 색인 사건 날짜 |
| 퇴원일 | 병원 퇴원 날짜 | 재원 기간 및 재입원 기간 계산을 위한 종료점 |
| 재원 기간 | 퇴원일 − 입원일 (일수) | 핵심 품질 지표; 위 두 날짜로 계산 가능 |
| 주 ICD-10 코드 | 주 진단명 (예: NSTEMI의 경우 I21.4) | 대부분 등록부의 주요 포함/제외 기준 |
| 부 ICD-10 코드 | 동반 질환 및 부 진단명 | 위험도 조정, 동반 질환 점수 산출 (Charlson, Elixhauser) |
| CPT 시술 코드 | 입원 중 시행된 시술 | 시술 기반 등록 포함, 비용 분석 |
| 퇴원 약물 | 약물명, 용량, 빈도, 기간 | AMI, 심부전, 뇌졸중 등록의 핵심 품질 지표 |
| 추후 진료 예약 | 전문과, 날짜, 장소 포함 예정된 추후 진료 | 진료 전환 품질 지표; 재입원 위험 요인 |
| 퇴원 담당 의사 | 퇴원 시 담당 의사 | 품질 보고를 위한 제공자 수준 귀속 |
퇴원 약물은 일관되게 수동 추출이 가장 어려운 필드입니다 — 정보를 찾기 어려워서가 아니라, 약물명, 용량, 빈도, 기간이라는 네 가지 하위 필드가 한 문단에 함께 나타나기 때문입니다. 약물 조정 섹션에는 "Metoprolol succinate 50 mg PO 1일 1회, 집에서 계속 복용"이 한 줄에, "Apixaban 5 mg PO 1일 2회 x 30일, 이후 2.5 mg 1일 2회"가 다음 줄에 나열될 수 있습니다. 추출자는 각 줄을 구성 필드로 분석한 후 등록 시스템에 입력해야 하며, 사실상 데이터 입력과 데이터 정규화를 동시에 수행하게 됩니다.
단계별 가이드: PDF 내보내기에서 구조화된 스프레드시트까지
수동 추출을 대체하는 워크플로는 네 단계로 구성됩니다. 코딩, IT 배포 또는 EHR 통합이 필요하지 않습니다. 입력은 병원 정보 시스템에서 내보낸 PDF 파일 모음입니다. 출력은 문서당 한 행, 필드당 한 열이 있는 Excel 스프레드시트입니다.
EHR에서 보고서를 PDF로 내보내기
대부분의 병원 EHR(Epic, Cerner, Meditech)은 영상의학 보고서와 퇴원 요약을 PDF로 내보내는 기능을 제공합니다. 감사나 등록에 필요한 증례를 선택하여 내보낸 후, PDF 파일을 하나의 폴더에 모으세요. 등록 추출 프로젝트는 50~500건의 보고서를 포함할 수 있습니다. 전공의의 연구 프로젝트는 30건 정도일 수 있습니다. 추출 워크플로는 두 규모 모두 동일한 방식으로 처리합니다.
필요한 열 정의
이 단계는 프로세스의 핵심이며, 의미론적 추출을 템플릿 기반 OCR과 차별화하는 부분입니다. 샘플 페이지의 각 필드 주위에 사각형을 그리는 대신, 프로젝트에 중요한 열 이름을 입력합니다. 방사선 감사라면: 검사일, 검사 유형, 신체 부위, 소견이 될 수 있습니다. 퇴원 기록 기반 레지스트리 추출의 경우: 의무기록번호, 입원일, 퇴원일, 주 ICD-10, CPT 시술, 퇴원 약물입니다. AI는 업로드된 각 문서를 읽고 각 필드 레이블의 의미를 이해하며, 페이지 내 위치나 표현 방식과 관계없이 해당 값을 찾습니다. 열 이름을 비워두면 AI가 문서 내용을 자동 감지하도록 할 수도 있습니다. 이는 모든 보고서에서 일관되게 사용 가능한 필드가 아직 확실하지 않은 첫 번째 스캔에 유용합니다.
업로드 후 AI가 추출하도록 합니다
모든 PDF를 한 번에 업로드하세요 — 영상의학 보고서 20개, 퇴원 요약 50개, 또는 두 가지를 섞어서도 가능합니다. 각 문서는 독립적으로 처리됩니다. AI는 찾은 값을 사용자가 정의한 열에 매핑합니다. 병원 A의 보고서에서 검사 유형을 "CT Chest w/ Contrast"로 표시하고, 병원 B의 보고서에서 "Computed Tomography — Thorax"로 표시해도, AI는 이들이 동일한 개념임을 이해하므로 같은 "검사 유형" 열에 값을 채웁니다. 단순히 같은 문자열이 일치해서가 아닙니다. 출력은 모든 원본 문서에서 일관된 열을 가진 단일 스프레드시트입니다.
핵심 필드 검증 후 내보내기
임상 데이터의 경우, 자동화든 수동이든 추출 파이프라인은 검증 단계를 반드시 거쳐야 합니다. 하지만 검증 부담은 완전 수동 추출보다 훨씬 가볍습니다. 모든 필드를 읽고 값을 입력하는 대신, 원본 PDF와 스프레드시트를 대조하며 주요 항목만 확인합니다: 주요 ICD-10 코드가 정확한가? 퇴원일자는 올바른가? 투약 목록이 누락 없이 완전한가? 일반적으로 검증은 건당 30~60초면 충분하며, 완전 수동 차트 추출은 건당 20~30분이 소요됩니다. AI가 전사 작업을 처리하므로, 담당자의 역할은 데이터 입력에서 품질 보증으로 전환됩니다.
한 가지 주목할 점: 동일 배치에 방사선 보고서와 퇴원 요약을 함께 업로드하면 출력의 각 행이 하나의 문서를 나타냅니다. 방사선 보고서는 "검사 유형" 및 "소견" 열에 값이 있지만 "퇴원 약물" 및 "추적 관찰 예약" 열은 비어 있습니다. 퇴원 요약은 그 반대입니다. 이는 정상적인 동작입니다. 스프레드시트는 사용자가 정의한 모든 열의 합집합이며, 각 문서는 해당 유형과 관련된 열만 채웁니다. 두 문서 유형이 모두 필요한 프로젝트의 경우 단일 스프레드시트가 자연스럽게 마스터 데이터 테이블이 되어 문서 유형별로 필터링하여 방사선 전용 또는 퇴원 전용 레코드를 분리할 수 있습니다.
타이핑 대신 추출을 사용하는 네 가지 임상 활용 사례
위에서 설명한 워크플로는 이론적이지 않습니다. 이는 임상 데이터 추출자가 서술형 보고서에서 구조화된 데이터베이스로 데이터를 옮기는 데 수시간을 소비하는 가장 일반적인 시나리오에 직접 적용됩니다.
임상 레지스트리 추출 (STS, GWTG, NCDR)
흉부외과학회(STS) 국가 데이터베이스, 미국심장학회 NCDR(CathPCI, 흉통-심근경색, 심방세동 모듈 포함), 미국심장협회 GWTG 프로그램은 모두 환자 차트에서 추출한 개별 데이터 요소를 필요로 합니다. 단일 CathPCI 케이스는 150개 이상의 데이터 포인트가 필요할 수 있습니다. 단일 GWTG-뇌졸중 케이스는 80개 이상이 필요할 수 있습니다. 이러한 데이터 포인트는 입원 기록, 시술 보고서, 퇴원 요약, 영상 보고서에 분산되어 있으며, 추출자의 역할은 PDF에서 각 항목을 찾아 레지스트리 데이터 수집 인터페이스에 입력하는 것입니다.
추출이 추상화 작업을 완전히 대체하지는 않습니다. 일부 레지스트리 필드는 숙련된 추출자만이 제공할 수 있는 임상적 판단을 필요로 합니다. 하지만 영상의학 및 퇴원 보고서에 그대로 나타나는 필드(검사일, ICD-10 코드, 시술명, 약물 목록)의 경우 전사 단계를 없애줍니다. 추출자는 사전 입력된 스프레드시트로 시작하여 해당 값을 확인한 후, 판단이 필요한 필드를 추가로 입력합니다. 80개 필드를 처음부터 추출하는 것과 50개가 자동 입력된 후 30개를 추출하는 것의 차이는 하루 3건과 8건의 처리량 차이입니다.
질 개선 감사
병원 질 관리 부서에서는 초점 감사를 위해 정기적으로 차트를 추출합니다 — 도어-투-벌룬 시간 준수, 퇴원 약물 조정 비율, 고급 영상에 대한 적절 사용 기준 등. 각 감사는 사례 목록으로 시작하여 스프레드시트로 끝나며, 중간 과정은 수동 차트 검토입니다. 조영제 투여 전 임상 적응증이 문서화되었는지 확인하는 100건의 방사선 보고서 감사에서 각 PDF에서 '임상 적응증' 필드를 단일 열로 추출하면 반나절이 걸리던 판독 작업이 스프레드시트 열을 5분 만에 훑어보는 작업으로 단축됩니다.
영국 방사선의사협회는 100개 이상의 방사선 감사 템플릿 라이브러리를 유지 관리하며, 각 템플릿은 수집해야 할 데이터 요소를 지정합니다. 대부분의 요소(검사 유형, 대기 시간, 보고서 처리 시간, 보고 기준 준수 여부)는 방사선 보고서에 개별 필드로 존재합니다. 감사 분석을 시작하기 전에 이를 스프레드시트로 추출하면 RCR 템플릿이 일반적으로 주 단위의 파트타임 작업으로 추정하는 감사 주기의 데이터 수집 단계를 크게 단축할 수 있습니다.
임상 연구 사례 식별
후향적 연구를 위해 코호트를 구축하는 연구 코디네이터는 특정 포함 기준(급성 비대상성 심부전의 주요 진단, 48시간 이상의 재원 기간, 베타 차단제를 포함한 퇴원 약물 목록)에 따라 퇴원 요약을 선별해야 합니다. 수동 검토의 경우 각 PDF를 열고 관련 필드를 찾기 위해 읽어보며 각 기준에 대한 예/아니오 결정을 기록해야 합니다. 추출을 사용하면 ICD-10 코드, 재원 기간 및 약물 목록이 이미 스프레드시트에 있으므로 코디네이터는 읽는 대신 정렬 및 필터링을 통해 선별합니다.
효율성 향상은 시간에 관한 것만이 아닙니다. 완전성에 관한 것입니다. 200개의 차트를 수동으로 선별하면 필수 기준이 예상과 다르게 표현된 경우("급성 비대상성 심부전" 대신 "CHF 악화" 또는 "퇴원 약물" 대신 "가정 약물"에 "메토프롤롤"이 나열된 경우)를 놓칠 수밖에 없습니다. 전체 문서를 의미적으로 읽는 AI는 문자열을 일치시키는 것이 아니라 의미를 이해하여 이러한 변형을 포착합니다. 선별된 코호트는 더 크고 완전해지며, 이 두 가지 특성은 결과 연구의 통계적 검정력을 직접적으로 향상시킵니다.
사망 검토 준비
병원 사망 검토 위원회는 대부분의 인증 기관에서 요구하며, 주 품질 규정에서 점점 더 의무화하고 있어 모든 입원 환자의 사망을 검토해야 합니다. 각 검토에는 퇴원 요약에서 추출한 사례 요약이 필요합니다: 입원일, 주 진단, 입원 중 시행된 시술, 퇴원 상태(이 경우 사망), 그리고 기록된 합병증이나 예상치 못한 사건. 월례 사망 검토 회의를 위해 20~50건의 사례에 대한 요약을 작성하려면 품질 전문가가 동일한 문서 유형에서 동일한 필드를 사례별로 추출하는 데 며칠을 소비해야 합니다.
퇴원 요약 필드를 스프레드시트로 추출하여(사망자당 한 행, 필수 검토 요소당 한 열) 회의 전에 위원회 구성원에게 배포할 수 있는 요약표를 생성합니다. 품질 전문가의 준비 시간은 데이터 수집에서 사례 분류로 전환됩니다: 심층 분석이 필요한 사례, 조사할 가치가 있는 패턴을 보이는 사례, 예측 가능한 임상 경로를 따르는 사례를 식별합니다.
AI가 임상 텍스트에서 추출할 수 있는 것과 없는 것
임상 맥락에서 한계를 구체적으로 밝히는 것은 약점이 아닙니다. 이는 과장된 약속을 하는 도구와 신뢰할 수 있는 도구를 구분 짓는 요소입니다. 그 경계는 여기에 있습니다.
기록된 내용은 추출하지만, 암시된 내용은 추출하지 않습니다. 퇴원 요약에 "환자 야간 저혈압, 수액에 반응"이라고 명시되어 있다면, AI는 그 문장을 입원 경과 텍스트로 추출합니다. 특정 중증도나 지속 시간의 저혈압 에피소드가 있었다고 추론하지 않습니다. 이 에피소드가 등록 목적상 합병증을 구성하는지에 대한 임상적 추론은 여전히 추출자가 담당합니다. AI는 원자재를 제공하고, 추출자는 임상적 해석을 제공합니다.
인쇄된 보고서에 손으로 쓴 주석이 있으면 정확도가 떨어집니다. EHR에서 직접 생성된 선명한 PDF는 신뢰할 수 있는 추출을 제공합니다. 스캔한 출력물, 특히 여백에 손으로 쓴 메모, 팩스 아티팩트, 또는 여러 번 복사한 문서가 있는 경우 손상된 영역 근처 텍스트의 정확도가 저하될 수 있습니다. 보고서를 인쇄하고, 주석을 달고, 다시 스캔하는 워크플로우를 사용하는 경우, 추출은 인쇄된 텍스트를 안정적으로 캡처하지만 손으로 쓴 주석은 가독성에 따라 정확도가 달라집니다.
깊이 중첩된 구조화 필드는 의미 매핑을 혼란스럽게 할 수 있습니다. 퇴원 약물 목록이 표 대신 비정형 문단으로 작성된 경우, AI는 "Metoprolol 50 mg daily, Lisinopril 10 mg daily, Apixaban 5 mg BID"를 세 개의 약물 항목으로 분석할 수 있습니다. 그러나 일부 구형 병원 보고서 형식처럼 셀이 병합되고 간격이 일정하지 않으며 페이지 나누기로 이어지는 복잡한 표로 작성되면, 하위 필드 매핑(약물 대 용량 대 빈도)의 정확도가 떨어집니다. 이런 경우, AI가 잘못된 형식의 표를 완벽하게 분석하도록 기대하기보다는 전체 약물 텍스트를 단일 필드로 추출한 후 수동으로 세분화하는 것이 더 실용적일 수 있습니다.
HIPAA 준수 여부는 도구가 아닌 귀하의 처리 방식에 달려 있습니다. 추출 과정은 파일을 메모리에서 처리하며 세션 종료 후 저장하지 않습니다. 그러나 환자 데이터를 클라우드 기반 도구에 업로드할 때 데이터에 보호된 건강 정보가 포함된 경우 업무 제휴 계약(BAA)이 필요합니다. 이 도구는 암호화된 연결을 통해 데이터를 처리하지만, 특정 기관 환경에서의 HIPAA 준수 책임 — BAA 필요 여부, IRB 또는 개인정보 보호 부서의 워크플로 승인 여부 포함 — 은 귀하에게 있습니다.
자주 묻는 질문
스캔한 종이 보고서에서도 작동하나요, 아니면 원본 PDF에서만 작동하나요?
둘 다 가능합니다. EHR에서 직접 생성된 원본 PDF는 텍스트가 기계에서 생성되었기 때문에 가장 신뢰할 수 있는 결과를 제공합니다. 인쇄, 주석 추가, 재스캔된 보고서를 포함한 스캔한 종이 보고서는 별도의 OCR 전처리 단계 없이 텍스트 이미지를 직접 읽어 처리합니다. 스캔한 보고서의 정확도는 스캔 품질에 따라 달라집니다. 인쇄된 보고서를 300 DPI로 깨끗하게 스캔한 경우 원본 PDF와 거의 동일한 성능을 보입니다. 기울어짐이 있고 그림자가 심한 복사본을 팩스로 보낸 경우, 특히 약물 용량과 같은 작은 글꼴 텍스트에서 정확도가 낮아집니다.
병원에서 여기 설명된 것과 다른 섹션 제목을 사용하면 어떻게 되나요?
추출은 섹션 제목을 정확한 문자열로 매칭하지 않습니다. 병원의 방사선 보고서에서 소견 섹션을 "결론" 또는 "평가"로 표시하거나, 퇴원 요약에서 입원 경과를 "입원 요약"으로 부르더라도 AI는 이를 의미적으로 동등하게 인식합니다. 사용자가 정의한 열 이름이 표준 레이블 역할을 하며, AI는 각 보고서에서 사용된 용어를 매핑합니다. 따라서 새 병원이나 새 부서의 보고서를 언제든지 추가로 구성할 필요 없이 추가할 수 있습니다.
동일한 배치에 방사선 보고서와 퇴원 요약을 모두 포함할 수 있나요?
네. 검사 유형, 소견, 입원일, 퇴원 약물 등 두 문서 유형의 필드를 포함하는 열을 정의하면, 각 방사선 보고서는 방사선 관련 열만 채우고(퇴원 관련 열은 비워둠), 각 퇴원 요약은 퇴원 관련 열만 채웁니다(방사선 관련 열은 비워둠). 출력 스프레드시트에는 모든 열이 포함된 모든 행이 있으며, 문서 유형이나 특정 열이 채워져 있는지 여부로 필터링하여 방사선 전용 또는 퇴원 전용 기록을 분리할 수 있습니다.
처방전 약물이 표 형태가 아닌 자유 텍스트로 나열된 경우 어떻게 처리하나요?
약물 목록이 구조화된 표가 아닌 연속된 텍스트로 구성된 경우, 하위 필드(약물명, 용량, 빈도)를 한 번에 추출하려 하지 말고 "퇴원 약물"(전체 텍스트)로 열을 정의하세요. AI가 전체 약물 텍스트 블록을 캡처합니다. 이후 Excel에서 수동으로 세분화하거나, 약물 텍스트만 대상으로 두 번째 추출을 실행하여 구조화된 하위 필드로 파싱할 수 있습니다. 전체 텍스트를 열로 시작하면 전체 케이스에 대한 자동 추출 속도와 비구조화된 약물 목록을 처리할 수 있는 유연성을 모두 확보할 수 있으며, 사람 검토자가 더 잘 판단할 수 있는 파싱 결정을 AI에 강제하지 않습니다.
소규모 연구 프로젝트에도 적합한가요, 아니면 대규모 레지스트리 작업에만 적합한가요?
워크플로는 확장할 때와 마찬가지로 축소할 때도 자연스럽게 작동합니다. 30명의 환자를 대상으로 후향적 연구를 수행하는 전공의는 300건을 처리하는 레지스트리 추출자와 정확히 동일한 방식으로 데이터 추출의 혜택을 받습니다. 건당 시간 절약 효과는 선형적으로 누적됩니다. 사실, 소규모 연구 프로젝트의 경우 데이터 추출이 더 가치 있을 수 있습니다. 소규모 프로젝트에는 일반적으로 전담 추출 인력을 위한 예산이 없기 때문입니다. 임상 업무 후에 30건의 데이터베이스를 구축해야 하는 전공의는 20시간의 수동 데이터 입력을 감당할 여유가 가장 없는 사람이며, 그 20시간을 2시간으로 줄이는 혜택을 가장 많이 받는 사람입니다.