Warum klinische Daten – bereits digital –immer noch von Hand extrahiert werden

Betreten Sie ein US-Krankenhaus: Die klinische Dokumentation ist praktisch papierlos. Radiologieberichte werden als PDFs im PACS erstellt. Entlassungsbriefe werden in die elektronische Patientenakte getippt. Operationsberichte werden diktiert, transkribiert und hochgeladen. Und doch – irgendwo im selben Gebäude sitzt eine examinierte Pflegekraft am Computer, liest genau dieselben Berichte Zeile für Zeile und tippt Datenpunkte manuell in ein klinisches Registerformular – Feld für Feld – zum dritten Mal diese Woche aus derselben Patientenakte. Die Dokumente sind digital. Die Datenextraktion ist es nicht.

Klinische Dokumentation und Dateneingabe-Workflow im Gesundheitswesen mit EHR-Bildschirmen und medizinischen Berichten

Wichtige Erkenntnisse

  1. Ein einziger CABG-Patient (koronare Bypass-Operation) erzeugt über 200 manuelle Datenpunkte für nur ein einziges Herzregister – und die Krankenakte desselben Patienten versorgt in der Regel fünf separate Register, die jeweils eine eigene, unabhängige Abstraktionssitzung aus denselben Quelldokumenten erfordern.
  2. Das Problem liegt nicht darin, dass klinische Dokumente auf Papier sind – über 90 % der US-Krankenhäuser nutzen eine elektronische Patientenakte (EPA) –, sondern dass diese Aufzeichnungen als narrative PDFs exportiert werden, deren Felder für Menschen sichtbar, für jede Krankenhausdatenbank jedoch unsichtbar sind.
  3. Die klinische Abstraktionsbelegschaft – Tausende von Pflegekräften und Fachkräften für Gesundheitsinformationen, die täglich dieselben Berichte in verschiedene Register eintippen – ist keine vorübergehende Lücke im Technologie-Stack, sondern selbst zum Technologie-Stack geworden, mit versteckten jährlichen Kosten in Milliardenhöhe.

Die zwei parallelen Welten der klinischen Dokumentation

Die klinische Dokumentation existiert in zwei Informationsökosystemen, die kaum miteinander kommunizieren. Die erste ist strukturierte Daten: Kontrollkästchen, Dropdown-Menüs, Optionsfelder. ICD-10-Codes, die eine Diagnose klassifizieren. CPT-Codes, die einen Eingriff beschreiben. Laborwerte, die in ein Datenbankfeld passen – Hämoglobin 12,3 g/dL, Kreatinin 0,9 mg/dL. Das ist die Welt, für die EHRs entwickelt wurden. Sie ist durchsuchbar, abfragbar, berichtsfähig. Sie ist aber auch, gemessen an Umfang und klinischem Reichtum, das flache Ende des Pools.

Die zweite Welt ist unstrukturierte Daten: der narrative Prosa, den Kliniker tatsächlich verfassen, wenn sie beschreiben, was sie sahen, was sie dachten und was sie taten. Der Radiologiebericht, der besagt: "Es gibt einen 1,2 cm großen, spikulierten Knoten im rechten Oberlappen mit begleitender Pleuraretraktion – CT-gesteuerte Biopsie empfohlen." Der Entlassungsbrief, der einen 12-tägigen Krankenhausaufenthalt schildert, von den Symptomen bei Aufnahme über Komplikationen bis zu den Nachsorgeanweisungen. Der Operationsbericht, der in 800 Wörtern chirurgischer Details genau beschreibt, welche Gefäße mit welchen Transplantaten unter welchen Bedingungen überbrückt wurden. Der Verlaufsbericht, der die sich entwickelnde Einschätzung eines Klinikers über drei Schichten hinweg festhält.

Diese zweite Welt – die narrative Welt – enthält schätzungsweise 80 % aller klinisch bedeutsamen Daten in der Patientenakte. Sie trägt die Begründung hinter der Entscheidungsfindung, die Nuancen, die Diagnosecodes einebnen, den Kontext, der einen Laborwert handlungsrelevant macht und nicht nur eine Zahl. Und sie ist standardmäßig unsichtbar für jedes Berichtstool, jede Analyseplattform und jeden automatisierten Workflow im Krankenhaus.

Die strukturierte Welt beantwortet "Was ist passiert?" in Kurzform. Die unstrukturierte Welt beantwortet "Warum ist es passiert, was bedeutet es und was sollte als Nächstes passieren?" Das Problem ist, dass die Maschinen nur die erste lesen können.

Warum das elektronische Patientendossier das Problem nicht gelöst hat

Seit dem HITECH-Gesetz von 2009 die Einführung elektronischer Patientendossiers (EPD) in US-Krankenhäusern von 9 % auf über 90 % steigerte, hält sich eine plausible Annahme: Elektronische Gesundheitsakten müssten das Problem der Datenzugänglichkeit gelöst haben. Wenn klinische Informationen digital vorliegen, sollten sie maschinenlesbar sein. Wenn sie maschinenlesbar sind, sollten sie abfragbar sein. Wenn sie abfragbar sind, sollte die manuelle Extraktion überflüssig sein.

Die Annahme scheitert bereits am ersten Schritt. EPDs sind keine klinischen Wissenssysteme. Sie sind Transaktionsdatenbanken, die für die Abrechnung optimiert sind – entwickelt in einer Zeit, in der der primäre Nutzen der Digitalisierung eines Patientenbesuchs die Erstellung einer Abrechnung war. Die grundlegende technische Entscheidung, die in jeder großen EPD-Plattform – Epic, Cerner, Meditech, Allscripts – steckt, ist, dass klinische Berichte als unstrukturierte Anhänge und nicht als strukturierte Felder gespeichert werden. Ein im Krankenhaus-PACS erstellter Radiologiebericht wird an die Patientenakte angehängt. Ein in ein Freitextfeld getippter Entlassungsbrief wird als Textblock gespeichert. Ein Operationsbericht wird als PDF hochgeladen.

Das EPD speichert diese Dokumente. Es analysiert sie nicht. Es indexiert ihren Inhalt nicht. Es ordnet den Satz „1,2 cm spikulierter Knoten im rechten Oberlappen" keinem strukturierten Datenelement zu, das eine Abfrage abrufen könnte. Aus Sicht einer Datenbank befinden sich der Radiologiebericht, der Entlassungsbrief und der Operationsbericht in derselben Kategorie wie eine eingescannte Papierakte von 1998: digitalisiert, aber nicht strukturiert, gespeichert, aber nicht durchsuchbar.

Eine im Journal of Medical Internet Research (2025) veröffentlichte Studie untersuchte den Informationsüberschneidungsgrad zwischen strukturierten Codes und Freitextnotizen bei 1,8 Millionen Patienten. Das Ergebnis: Strukturierte Daten allein – ICD-Codes, Prozedurencodes, Laborwerte – erfassten nur einen Bruchteil des klinischen Gesamtbilds. Freitextnotizen enthielten „detaillierte Beschreibungen, die die Nuancen der Patientenversorgung abbilden“. Die strukturierten Felder der elektronischen Patientenakte (EPA) sagten Ihnen, dass der Patient eine Bypass-Operation (CABG) hatte. Der Operationsbericht verriet Ihnen wie die CABG ablief – und das ist für Qualitätsmessung, Risikoadjustierung und klinische Forschung von enormer Bedeutung.

Dies ist kein Versagen eines bestimmten EPA-Anbieters. Es ist eine Folge dessen, wofür EPAs konzipiert wurden. Sie wurden entwickelt, um strukturierte Daten für Abrechnung und regulatorische Berichterstattung zu erfassen. Sie wurden nicht entwickelt, um Bedeutung aus Erzählungen zu extrahieren. Dass 80 % der klinischen Daten in Freitext vorliegen, ist kein Fehler – es ist die natürliche Konsequenz daraus, dass Kliniker die Versorgung so dokumentieren, wie Menschen komplexe Informationen kommunizieren: in Sätzen, nicht in Dropdown-Menüs.

Eine EPA macht die klinische Dokumentation digital. Sie macht sie nicht strukturiert. Das Extrahieren von Daten aus einem radiologischen Befund, der in Epic gespeichert ist, erfordert dieselbe kognitive Arbeit wie das Extrahieren aus einem getippten Bericht in einer Papiermappe – Lesen, Interpretieren und Übertragen der relevanten Informationen in ein separates System. Das Medium hat sich geändert. Die manuelle Arbeit nicht.

Die unsichtbare Abstraktionsbelegschaft

Da elektronische Patientenakten klinische Erzählungen als unauffindbare Datenblöcke speichern, beschäftigen Krankenhäuser eine ganze Berufsgruppe, deren Vollzeitjob darin besteht, diese Erzählungen zu lesen und bestimmte Datenpunkte manuell in andere Systeme einzutragen. Sie heißen klinische Datenextraktoren und stellen eine der größten versteckten Arbeitskosten im amerikanischen Gesundheitswesen dar.

Klinische Datenextraktoren sind in der Regel examinierte Pflegekräfte (RNs), geprüfte Gesundheitsinformationstechniker (RHITs) oder zertifizierte Tumorregistratoren (CTRs) – lizenzierte Kliniker oder akkreditierte Gesundheitsinformationsfachleute, die Patientenakten prüfen und Schlüsseldaten für Qualitätsberichte, klinische Register, Forschung und behördliche Auflagen extrahieren. Die Arbeit erfordert klinisches Wissen: Man kann kein chirurgisches Register extrahieren, ohne operative Anatomie zu verstehen, und kein kardiologisches Register, ohne hämodynamische Daten zu interpretieren. Die American Data Network, eine der größten Outsourcing-Firmen für klinische Extraktion, beschreibt die Kernaufgabe des Extraktors als das Durchgehen von „klinischen Notizen, Testergebnissen, Bildgebungsberichten und Medikationen“ und das Übersetzen „dieser Details in strukturierte Felder.“

Das Ausmaß dieser Belegschaft ist schwer genau zu messen, da Extraktion kein standardisierter Berufstitel ist – sie ist in Qualitätsabteilungen, Registerteams und klinischen Forschungseinheiten eingebettet. Aber die wirtschaftlichen Aspekte sind auf Krankenhausebene sichtbar. Eine Präsentation des Registerteams des Massachusetts General Hospital aus dem Jahr 2018 schlüsselte die Personalkosten für 11 chirurgische Fachgesellschaftsregister an einem einzigen akademischen Medizinzentrum auf:

RegisterErforderliche VZÄPatienten/JahrJährliche Personalkosten
STS-Cardiac (Erwachsenen-Herzchirurgie)3 VZÄ Pflege + 0,5 PSC1.300~250.000–300.000 $
ACS-NSQIP (Chirurgische Qualität)1,5 VZÄ Pflege + Analyst + Manager1.800~120.000–180.000 $
ACS-NTDB und ACS-TQIP (Trauma)3,5 VZÄ Personal + 0,3 Manager2.500~250.000–350.000 $
STS-Thoraxchirurgie1 VZÄ Pflege + Manager1.000~80.000–120.000 $
SRTR (Organtransplantation)7,0–10,0 VZÄ Pflege + 1,5 Manager750~500.000–700.000 $

Quelle: Massachusetts General Hospital, CMSS-Präsentation (2018). Schätzungen basieren auf gemeldeten VZÄ-Bereichen.

Das sind fünf Register an einem einzigen Krankenhaus, die jährliche Personalkosten von rund 1,2 bis 1,7 Millionen Dollar verursachen – und das sind nur die Register, für die MGH VZÄ-Daten öffentlich gemacht hat. Die meisten akademischen medizinischen Zentren beteiligen sich an 8 bis 15 Registern. Die Nationale Datenbank der Society of Thoracic Surgeons allein erfasst 95 % der Erwachsenen-Herzoperationen in den USA, wobei jeder CABG-Fall die Erfassung von über 200 Datenpunkten erfordert – von präoperativen Risikofaktoren über intraoperative Details bis hin zu 30-Tage-Ergebnissen nach der Entlassung. Das NCDR-Netzwerk – betrieben vom American College of Cardiology – umfasst über 2.400 Krankenhäuser in sechs Registern, die Herzkatheteruntersuchungen, ICD-Implantationen, Klappeneingriffe und mehr abdecken.

Eine Umfrage von Carta Healthcare unter klinischen Datenerfassern in US-Krankenhäusern im Sommer 2024 ergab, dass 50 % der Befragten mehr als die Hälfte ihrer Arbeitszeit mit manueller Dateneingabe und -erfassung verbringen. Die Umfrage beschrieb „ein beunruhigendes Paradoxon: Während Kliniker Register als unverzichtbar für Qualitäts- und Prozessverbesserungen ansehen, treibt die belastende manuelle Datenerfassung diese Fachkräfte an ihre Grenzen.“ Auf die Frage nach Automatisierung gaben 45 % an, dass automatisierte Tools die Erfassung in ihrer Organisation beschleunigen würden, 30 % glaubten, sie würden die Datenqualität verbessern, und 20 % sagten, sie würden Kosten senken. Die Nachfrage nach Automatisierung kommt von den Erfassern selbst – denjenigen, deren Arbeitsplätze die Automatisierung theoretisch gefährden könnte. In der Praxis wächst das zu erfassende Datenvolumen schneller, als die Belegschaft Schritt halten kann.

Auf Reddit fällt der Ton deutlicher aus. Ein klinischer Forschungsexperte postete: „Ich habe gerade Stunden damit verbracht, Patientendaten in ein Register einzugeben, nur um festzustellen, dass fast 100 Patienten in diesem Register sind (alle im Rückstand).“ Ein anderer Thread auf r/clinicalresearch fragt schlicht: „Wie viel Zeit wird im Allgemeinen für die Dateneingabe oder das Durchsuchen von Patientenakten aufgewendet?“ – eine Frage, die auf ein so tief in den Arbeitsabläufen verwurzeltes Problem hinweist, dass niemand eine Basisantwort hat, weil die Antwort „den Großteil des Tages“ lautet.

Der wirtschaftliche Umfang wird sichtbar, wenn man hochrechnet: Ein einzelner klinischer Datenextraktor mit einem Jahresgehalt von 75.000 $, der 50 % seiner Arbeitszeit damit verbringt, einen Bericht zu lesen, einen bestimmten Wert zu finden und in ein anderes System einzutippen, verursacht jährliche Arbeitskosten von rund 37.500 $ für reine Transkription. Hochgerechnet auf die Extraktionsbelegschaft eines einzelnen multiregistrierenden akademischen Krankenhauses – 10 bis 20 Vollzeitkräfte – ergibt das 375.000 $ bis 750.000 $ pro Krankenhaus und Jahr. Allein in den 2.400 NCDR-Teilnehmerkrankenhäusern liegen die Gesamtkosten der manuellen Registerextraktion konservativ im niedrigen Milliardenbereich jährlich, noch bevor die Opportunitätskosten berücksichtigt werden, dass ausgebildete klinische Fachkräfte statt patientennaher Arbeit Datentranskription leisten.

Klinische Datenextraktoren sind die menschliche Strukturierungsschicht zwischen KIS und Registern. Ihre Aufgabe existiert, weil zwei Systeme, die beide klinische Daten enthalten – das KIS und das Register – diese Daten nicht austauschen können, ohne dass eine Person das eine liest und in das andere eintippt. Die Extraktionsbelegschaft ist keine vorübergehende Lücke im Technologie-Stack. Sie ist der Technologie-Stack.

Ein Patient, eine Akte, fünf Register – und fünf separate Datenerfassungssitzungen

Die Wirtschaftlichkeit der Abstraktion wird durch ein strukturelles Merkmal klinischer Register vervielfacht, das in anderen Branchen kein Pendant hat: Mehrere Register greifen auf dieselben Quelldokumente zu, tauschen aber keine Daten untereinander aus.

Stellen Sie sich einen Patienten vor, der sich einer koronaren Bypass-Operation unterzieht. Die Datenbank der Society of Thoracic Surgeons (STS) für Erwachsenen-Herzchirurgie erfordert für diesen Patienten über 200 Datenelemente: präoperative Risikofaktoren (Diabetesstatus, Ejektionsfraktion, vorherige PCI), intraoperative Details (Anzahl der Grafts, Abklemmzeit, Verwendung der Arteria mammaria interna) und 30-Tage-Ergebnisse (Mortalität, Schlaganfall, tiefe Sternumwundinfektion, Nierenversagen, verlängerte Beatmung).

Die Akte desselben Patienten enthält denselben Operationsbericht. Aber dieser Patient kann auch in das NCDR CathPCI-Register aufgenommen werden – weil er eine präoperative Herzkatheteruntersuchung hatte – und dieses Register hat sein eigenes Datenwörterbuch mit eigenen Felddefinitionen. Wenn der Eingriff ein transkatheterales Klappenverfahren umfasste, fügt das STS/ACC TVT-Register eine weitere Reihe von Variablen hinzu. Wenn der Patient eine Komplikation hatte, die eine Rückkehr in den Operationssaal erforderte, kann das chirurgische Qualitätsregister ACS NSQIP zum Tragen kommen. Wenn das Krankenhaus an einem Get With The Guidelines (GWTG)-Programm für die kardiovaskuläre Erkrankung des Patienten teilnimmt, ist dies ein fünftes Register mit eigenen Abstraktionsanforderungen.

Alle fünf Register lesen dieselben Quelldokumente. Denselben radiologischen Befund. Dasselbe Operationsprotokoll. Denselben Entlassungsbrief. Dieselben Laborwerte. Und in fast jedem Krankenhaus in den USA extrahieren fünf verschiedene Datenerfassungs-Workflows – oft auf verschiedene Abstraktoren verteilt, manchmal führt dieselbe Person dieselbe Arbeit fünfmal aus – manuell überlappende Datenpunkte in fünf separate Register-Erfassungsplattformen.

Die MGH-Daten machen dies sichtbar. Ein einziges Krankenhaus betreibt 11 chirurgische Register mit Personalbedarf von 0,5 VZÄ (kleine Register mit ≤500 Fällen/Jahr) bis zu 10 VZÄ (Transplantationsregister mit 750 Fällen/Jahr). Die Variablendefinitionen unterscheiden sich oft zwischen den Registern, selbst für dasselbe klinische Konzept – ein Register definiert „postoperatives Nierenversagen“ mit einem Kreatinin-Schwellenwert, ein anderes mit einem anderen Schwellenwert oder Zeitfenster. Die Erfassungszeit pro Fall liegt zwischen 15 Minuten und 4 Stunden, abhängig von der Komplexität des Registers und dem klinischen Verlauf des Patienten.

Dies ist kein Problem der technologischen Interoperabilität, das HL7 FHIR lösen kann. FHIR kann den Transport von Daten zwischen Systemen standardisieren – sicherstellen, dass wenn System A einen Laborwert an System B sendet, beide Systeme das Format der Übertragung einhalten. Was FHIR nicht kann, ist einen narrativen Absatz in ein strukturiertes Feld zu verwandeln. Es kann keinen radiologischen Befund mit der Aussage „1,2 cm spikulierter Knoten“ lesen und ein Registerfeld für „Tumorgröße in größter Ausdehnung“ befüllen. Diese Transformation – von Prosa zu strukturierten Daten – erfordert weiterhin einen menschlichen Leser oder ein KI-System, das zur semantischen Extraktion fähig ist. Die Interoperabilitätsstandards haben das Übertragungsproblem gelöst. Sie haben das Strukturierungsproblem nicht gelöst.

Die klinische Dokumentation eines einzelnen Patienten kann fünf oder mehr Register speisen, die jeweils eine eigene Abstraktionssitzung aus demselben Quellmaterial erfordern. Die doppelte Arbeit ist kein Rundungsfehler – sie ist ein strukturelles Merkmal eines Systems, in dem Register als unabhängige Datenerfassungssilos aufgebaut wurden, jedes mit eigenem Datenwörterbuch, Felddefinitionen und Einreichungsprotokoll.

Die Ironie: Bereits digital, nur nicht strukturiert

Im Gesundheits-IT-Bereich hält sich hartnäckig die Erzählung, die Herausforderung sei die „Digitalisierung“ – also Papierakten in Computer zu überführen. Diese Erzählung ergab 2005 Sinn, als die meisten Krankenhäuser noch mit Papierakten arbeiteten und der HITECH Act noch nicht in Kraft getreten war. Heute ergibt sie keinen Sinn mehr. Über 90 % der US-Krankenhäuser nutzen ein EHR. Radiologieabteilungen sind seit über einem Jahrzehnt filmlos; die meisten radiologischen Befunde werden vollständig in digitalen PACS-zu-EHR-Workflows erstellt, signiert und verteilt. Entlassungsbriefe werden getippt, nicht auf Kassetten diktiert. Operationsberichte werden in vorlagenbasierte EHR-Module eingegeben. Die klinische Dokumentation, die am wichtigsten ist – die Texte mit den reichhaltigsten klinischen Informationen – ist bereits digital.

Der Engpass ist nicht die Digitalisierung. Der Engpass ist die Strukturierung.

Und der Strukturierungsengpass hat eine konkrete, messbare Form. Es ist die Lücke zwischen „dieser Patient hatte eine CABG“ – einer strukturierten Tatsache, die das EHR melden kann – und den 200 einzelnen Datenpunkten, die das STS-Register darüber verlangt, wie diese CABG durchgeführt wurde. Jeder dieser 200 Datenpunkte existiert irgendwo in der klinischen Dokumentation: die präoperative Ejektionsfraktion im Echokardiographiebericht, die Anzahl der Grafts im Operationsbericht, die postoperative Beatmungsdauer im Intensivpflegeprotokoll, der 30-Tage-Mortalitätsstatus aus einem poststationären Telefonat, das als Freitextnotiz dokumentiert ist. Die Information ist in der Akte. Sie ist nur nicht in einem maschinenlesbaren Format.

Das stellt die gesamte Automatisierungsdebatte auf den Kopf. Die Frage ist nicht „Können wir klinische Dokumentation digitalisieren?“ – dieser Zug ist abgefahren. Die Frage ist: „Können wir strukturierte Daten aus bereits digitalen klinischen Texten extrahieren, ohne mehr Leute zum Lesen und Tippen einzustellen?“

Der Unterschied ist entscheidend, denn er bestimmt, welche Technologie das Problem tatsächlich löst. Template-basierte OCR – die Art, die „wo“ ein Feld auf einer Seite steht – wurde für Dokumente mit festem Layout entwickelt: standardisierte Formulare, gedruckte Tabellen, strukturierte Rechnungen. Ein klinischer Operationsbericht hat kein festes Layout. Es ist ein narrativer Absatz, verfasst von einem Chirurgen, der einen Eingriff beschreibt, der jedes Mal anders ablaufen kann. Eine Erzählung kann man nicht mit einer Vorlage erfassen. Man kann sie nur verstehen.

Hier kommen die aktuellen KI-Extraktionstools ins Spiel – basierend auf visuellen Sprachmodellen (VLMs) statt auf Template-OCR. Ein VLM muss nicht wissen, wo auf der Seite die Ejektionsfraktion steht. Es muss wissen, was eine Ejektionsfraktion ist – dass es sich um einen Prozentwert handelt, typischerweise ausgedrückt als „EF 45 %“ oder „LVEF geschätzt auf 40–45 %“ – und sie in der Erzählung finden, wo immer sie auftaucht. Das ist semantische Extraktion, keine koordinatenbasierte Extraktion. Sie funktioniert nach dem Prinzip, dass klinische Konzepte über unterschiedlich formulierte Erzählungen hinweg konsistente semantische Signaturen haben und dass ein Modell, das darauf trainiert ist, Sprache zu verstehen, „die Ejektionsfraktion“ findet, unabhängig davon, ob der Kardiologe „EF 40 %“ oder „LV-systolische Funktion mäßig reduziert, geschätzte EF 40–45 %“ geschrieben hat.

Die Kernineffizienz bei der klinischen Datenextraktion liegt nicht darin, dass Dokumente auf Papier sind. Sie liegt darin, dass Dokumente als Prosa vorliegen – reichhaltige, nuancierte, klinisch wertvolle Prosa – und die Systeme, die die Daten aus diesen Dokumenten benötigen, strukturierte Felder verlangen. Das Digitalisierungsproblem ist gelöst. Das Strukturierungsproblem ist der Ort, an dem die Milliarden an manueller Arbeit stecken.

Was Strukturierung klinischer Daten tatsächlich bedeutet

Wenn der Engpass die Strukturierung ist – nicht die Digitalisierung –, dann ist die Lösung kein besserer Scanner und keine schnellere Schreibkraft. Es ist ein System, das klinische Texte so lesen kann wie ein menschlicher Datenextraktor: Es versteht die Bedeutung jedes Satzes, erkennt, welche Konzepte zu welchen Registerfeldern gehören, und erzeugt strukturierte Ausgaben, die ein Mensch dann validieren kann.

Dies ist eine grundlegend andere Aufgabe als das, wofür die meisten Dokumentenautomatisierungswerkzeuge entwickelt wurden. Herkömmliche Dokumentextraktionswerkzeuge – diejenigen, die Rechnungen und Bestellungen verarbeiten – funktionieren, indem sie das Layout eines Formulars erlernen. Sie merken sich, dass „Rechnungsnummer“ oben rechts und „Gesamtsumme“ unten auf der letzten Seite steht. Wenn eine neue Rechnung vom selben Lieferanten eingeht, liest das Werkzeug dieselben Koordinaten und extrahiert dieselben Felder. Wenn ein anderer Lieferant eine anders formatierte Rechnung sendet, benötigt das Werkzeug eine neue Vorlage.

Klinische Texte machen diesen Ansatz aus zwei Gründen zunichte. Erstens gibt es kein festes Layout – ein Entlassungsbericht von Krankenhaus A und ein Entlassungsbericht von Krankenhaus B sind beide Texte, aber sie organisieren Informationen unterschiedlich, verwenden unterschiedliche Überschriften und drücken klinische Konzepte mit unterschiedlichem Vokabular aus. Zweitens, und grundlegender, sind die Daten selbst nicht positionsabhängig. Sie finden „Cross-Clamp-Zeit 47 Minuten“ nicht in einem bestimmten Feld des Operationsberichts. Sie finden es eingebettet in einem Absatz, umgeben von anderen chirurgischen Details, geschrieben im bevorzugten Prosastil des Chirurgen.

Semantische Extraktion löst dies, indem sie auf Bedeutung und nicht auf Position basiert. Das VLM liest das gesamte Dokument, erkennt, welche klinischen Konzepte vorhanden sind, und extrahiert die Werte, die zu jedem Konzept gehören – unabhängig davon, wo auf der Seite das Konzept erscheint, welche Formulierung der Autor verwendet hat oder ob es sich um ein getipptes PDF, einen gescannten Bericht oder einen Screenshot der EHR-Oberfläche handelt. Der Extraktor muss nicht für jedes neue Dokumentationsformat eines Krankenhauses neu trainiert werden, da er keine Formate lernt – er erkennt Konzepte.

Der praktische Workflow ist nicht „KI ersetzt den Abstraktor“. Es ist „KI übernimmt den Leseschritt, und der Abstraktor übernimmt den Validierungsschritt.“ Die KI befüllt die 200+ Felder des STS-Herzchirurgie-Registers aus dem Operationsbericht, dem Entlassungsbrief, dem Echobericht und dem Nachsorgebericht. Der Abstraktor – eine Pflegefachkraft mit Erfahrung in der Herzchirurgie – überprüft die befüllten Felder, korrigiert etwaige Extraktionsfehler, wendet klinisches Urteilsvermögen bei mehrdeutigen Fällen an und reicht den validierten Eintrag ein. Die Zeit des Abstraktors verschiebt sich vom Auffinden von Daten (Durchscrollen von 80 Seiten EHR-Dokumentation, der Teil, der laut der Carta-Umfrage 50 %+ des Arbeitstages ausmacht) hin zur Validierung von Daten (der Teil, der klinische Expertise erfordert und nicht automatisiert werden kann).

Bei einem CABG-Patienten, dessen Abstraktion derzeit 45 bis 90 Minuten dauert – von der präoperativen über die intraoperative bis zur postoperativen Dokumentation in mehreren EHR-Modulen – kann ein semantisches Extraktionstool, das die erste Datenerfassung übernimmt, die Bearbeitungszeit pro Fall um die Hälfte oder mehr reduzieren. Die Rechnung ist einfach: Wenn eine examinierte Pflegekraft mit einem Stundenlohn von 40 $ 1.300 CABG-Fälle pro Jahr bearbeitet (das von MGH für ihr STS-Cardiac-Register gemeldete Volumen) und die KI-gestützte Extraktion 30 Minuten pro Fall einspart, werden jährlich 650 Stunden Pflegearbeitszeit freigesetzt – rund 26.000 $ an eingesparten Personalkosten, die von der Transkription hin zur Validierung und Qualitätsverbesserung umgeleitet werden. Über fünf Register hinweg, in 2.400 Krankenhäusern, ist die Summe kein Rundungsfehler.

Häufig gestellte Fragen

Warum erstellen EHRs die klinische Dokumentation nicht standardmäßig strukturiert?

Weil strukturierte Dateneingabe – Dropdowns, Kontrollkästchen, eingeschränkte Vokabulare – grundlegend im Widerspruch zur Denk- und Kommunikationsweise von Klinikern steht. Ein Kontrollkästchen kann „Brustschmerz: vorhanden“ erfassen, aber nicht „Patient beschreibt intermittierenden substernalen Brustdruck, der in die linke Schulter ausstrahlt, schlimmer bei Belastung, besser in Ruhe, Beginn vor etwa 2 Wochen, zunehmende Häufigkeit.“ Das Kontrollkästchen erfasst einen Abrechnungscode. Die Erzählung erfasst die klinische Argumentation. Kliniker zu zwingen, ausschließlich in strukturierten Feldern zu dokumentieren, würde Daten produzieren, die Maschinen lesen können, die aber andere Kliniker nicht nutzen können. Der Zielkonflikt ist real, und die medizinische Gemeinschaft hat sich – zu Recht – für klinisch nützliche statt maschinenfreundliche Dokumentation entschieden.

An wie vielen klinischen Registern nimmt ein typisches Krankenhaus teil?

Ein kommunales Krankenhaus nimmt in der Regel an 3 bis 5 Registern teil – typischerweise für Schlaganfall (GWTG), Herzkatheter (NCDR CathPCI) und chirurgische Qualität (ACS NSQIP). Ein großes akademisches Medizinisches Zentrum ist meist an 10 bis 15 Registern beteiligt, darunter Herzchirurgie (STS), Traumatologie (TQIP), Transplantation (SRTR), Onkologie (NCDB) und mehrere subspezialisierte Register. Die veröffentlichten Daten des MGH umfassen 11 Register; viele akademische Zentren übertreffen diese Zahl. Jedes Register erfordert zusätzliche VZÄ für die Datenextraktion, und die VZÄ summieren sich, da die Register keine Daten teilen.

Welche klinischen Dokumente erfordern manuelle Abstraktion?

Die Dokumente, die den meisten Abstraktionsaufwand verursachen, sind Radiologieberichte, Entlassungsbriefe, Operationsberichte, Verlaufsnotizen und Pathologieberichte – die textlastigen Dokumente, in denen die klinisch wertvollsten Informationen stecken. Laborwerte, Medikamentenverordnungen und Vitalparameter sind strukturierte Daten, die Krankenhausinformationssysteme direkt exportieren können. Die manuelle Arbeit konzentriert sich überwiegend auf die Freitextdokumente, die die klinische Argumentation und Nuancen enthalten, die strukturierte Felder nie abbilden sollten.

Kann KI radiologische Befunde wirklich genau genug für das Register lesen?

Visuelle Sprachmodelle können diskrete Datenpunkte aus radiologischen Texten extrahieren – Tumorgrößen, Seitigkeit, Bildgebungsmodalität, Nachsorgeempfehlungen – mit einer Genauigkeit, die sie als erstes Werkzeug für einen Abstraktor zur Validierung nutzbar macht. Sie ersetzen keine klinische Überprüfung, da radiologische Befunde Mehrdeutigkeiten enthalten (Eindrücke, die abwägen, Messungen, die als „ungefähr“ qualifiziert werden), die menschliche Interpretation erfordern. Die geeignete Architektur ist KI-gestützte Abstraktion: Das Modell füllt Felder, der Abstraktor validiert. Dies ist dasselbe Modell, das die Carta-Umfrage als Wunsch der Abstraktoren ergab – Werkzeuge, die manuelle Suchzeit reduzieren, ohne klinisches Urteilsvermögen zu ersetzen.

Was ist der Unterschied zwischen Digitalisierung und Strukturierung in der klinischen Dokumentation?

Digitalisierung bedeutet, ein Dokument von der physischen in die elektronische Form zu überführen – das Scannen einer Papierakte, das Erstellen eines PDFs aus einem KIS, das Speichern eines Bildes in einem PACS. Das Dokument ist nun eine Datei. Strukturierung bedeutet, den Inhalt dieses Dokuments von erzählendem Prosa in diskrete, abfragbare Datenfelder umzuwandeln – das Extrahieren von „Abklemmzeit: 47 Minuten“ aus einem Absatz in einem Operationsbericht und das Befüllen eines Datenbankfeldes namens „abklemmzeit_minuten“ mit dem Wert „47“. Digitalisierung erzeugt eine Datei, die ein Mensch lesen kann. Strukturierung erzeugt Daten, die eine Maschine nutzen kann. Das Problem in der klinischen Dokumentation ist, dass die Digitalisierung stattfand, die Strukturierung jedoch nicht folgte – weshalb Krankenhäuser immer noch Menschen beschäftigen, die dies manuell erledigen.

Die strukturelle Wahrheit der klinischen Dokumentation: KIS haben klinische Daten digitalisiert, aber nicht strukturiert. Register benötigen strukturierte Daten, können diese jedoch nicht aus Erzählungen extrahieren. Zwischen diesen beiden inkompatiblen Systemen arbeitet eine Belegschaft von Tausenden Pflegekräften und Gesundheitsinformationsspezialisten, die die Lücke manuell schließen – einen Bericht nach dem anderen, ein Feld nach dem anderen, ein Register nach dem anderen – oft dieselben Dokumente lesen und dieselben Datenpunkte für fünf verschiedene Systeme in fünf separaten Sitzungen extrahieren. Die Kosten sind nicht nur die Gehälter der Abstraktoren. Es ist das klinische Talent, das von der Patientenversorgung zur Datentranskription umgeleitet wird. Es ist die Registerteilnahme, die sich Krankenhäuser nicht leisten können und daher auslassen – wodurch Qualitätslücken ungemessen bleiben. Es sind die Forschungsfragen, die nicht gestellt werden, weil die Daten in Prosa vorliegen, die niemand budgetieren kann, um sie zu strukturieren. KI-Extraktion löst nicht jede Ebene dieses Problems – klinisches Urteilsvermögen, Registerfelddefinitionen und zahlerspezifische Regeln bleiben menschliche Domänen. Was sie löst, ist die Ebene, die nie menschlich hätte sein sollen: einen Absatz lesen und die Antwort in ein Feld tippen.

📮 contact email: [email protected]