Por que Dados Clínicos — Já Digitais —
Ainda São Extraídos Manualmente
Entre em qualquer hospital dos EUA e a documentação clínica é, para todos os efeitos, sem papel. Laudos de radiologia são gerados como PDFs dentro do PACS. Resumos de alta são digitados no prontuário eletrônico. Notas cirúrgicas são ditadas, transcritas e anexadas. E ainda assim — em algum lugar do mesmo prédio, um enfermeiro está sentado em um computador, lendo esses mesmos laudos linha por linha, e digitando manualmente os dados em um formulário de registro clínico, campo por campo, pela terceira vez nesta semana a partir do mesmo prontuário do paciente. Os documentos são digitais. A extração de dados não é.
Principais Conclusões
- Um único paciente submetido a CRM (cirurgia de revascularização do miocárdio) gera mais de 200 pontos de dados manuais para apenas um registro cardíaco — e o prontuário desse mesmo paciente geralmente alimenta cinco registros separados, cada um exigindo sua própria sessão de abstração independente a partir de documentos-fonte idênticos.
- O problema não é que os documentos clínicos estejam em papel — mais de 90% dos hospitais dos EUA usam um PEP (prontuário eletrônico do paciente) — é que esses registros são exportados como PDFs narrativos cujos campos são visíveis para humanos, mas invisíveis para todos os bancos de dados hospitalares.
- A força de trabalho de abstração clínica — milhares de enfermeiros e profissionais de informação em saúde redigitando os mesmos relatórios em diferentes registros diariamente — não é uma lacuna temporária na pilha de tecnologia, mas tornou-se a própria pilha de tecnologia, a um custo anual oculto na casa dos bilhões de dólares.
Os Dois Mundos Paralelos da Documentação Clínica
A documentação clínica existe em dois ecossistemas de informação que mal se comunicam. O primeiro são os dados estruturados: caixas de seleção, menus suspensos, botões de opção. Códigos CID-10 que classificam um diagnóstico. Códigos CPT que descrevem um procedimento. Valores laboratoriais que se encaixam em um campo de banco de dados — hemoglobina 12,3 g/dL, creatinina 0,9 mg/dL. Este é o mundo para o qual os prontuários eletrônicos foram criados. É pesquisável, consultável, reportável. Também é, em volume e riqueza clínica, a parte rasa da piscina.
O segundo mundo são os dados não estruturados: a prosa narrativa que os clínicos realmente geram ao descrever o que viram, o que pensaram e o que fizeram. O laudo de radiologia que diz "há um nódulo espiculado de 1,2 cm no lobo superior direito, com retração pleural associada — recomenda-se biópsia guiada por TC." O resumo de alta que narra uma internação de 12 dias, desde os sintomas iniciais até as complicações e instruções pós-alta. A nota cirúrgica que descreve, em 800 palavras de detalhes cirúrgicos, exatamente quais vasos foram revascularizados, com quais enxertos, sob quais condições. A nota de evolução que captura a avaliação em evolução de um clínico ao longo de três turnos.
Este segundo mundo — o mundo narrativo — contém cerca de 80% de todos os dados clinicamente significativos no prontuário do paciente. Ele carrega o raciocínio por trás da tomada de decisão, a nuance que os códigos diagnósticos achatam, o contexto que torna um valor laboratorial acionável, e não apenas um número. E, por padrão, é invisível para todas as ferramentas de relatório, plataformas de análise e fluxos de trabalho automatizados do hospital.
O mundo estruturado responde "o que aconteceu" de forma abreviada. O mundo não estruturado responde "por que aconteceu, o que significa e o que deve acontecer a seguir." O problema é que as máquinas só conseguem ler o primeiro.
Por que o EHR não resolveu isso
Existe uma suposição razoável que persiste desde que a Lei HITECH de 2009 impulsionou a adoção de EHRs de 9% para mais de 90% dos hospitais dos EUA: os prontuários eletrônicos deveriam ter resolvido o problema de acessibilidade dos dados. Se a informação clínica é digital, deveria ser legível por máquina. Se é legível por máquina, deveria ser consultável. Se é consultável, a extração manual deveria estar obsoleta.
A suposição falha logo no primeiro passo. EHRs não são sistemas de conhecimento clínico. Eles são bancos de dados transacionais otimizados para faturamento, construídos em uma era em que o principal caso de uso para digitalizar um atendimento ao paciente era gerar uma cobrança. A decisão central de engenharia embutida em todas as principais plataformas de EHR — Epic, Cerner, Meditech, Allscripts — é que as narrativas clínicas são armazenadas como anexos não estruturados, e não como campos estruturados. Um laudo de radiologia gerado dentro do PACS do hospital é anexado ao prontuário do paciente. Um resumo de alta digitado em uma caixa de texto livre é salvo como um bloco de texto. Uma nota cirúrgica é carregada como PDF.
O EHR armazena esses documentos. Ele não os analisa. Ele não indexa seu conteúdo. Ele não mapeia a frase "nódulo espiculado de 1,2 cm no lobo superior direito" para um elemento de dado estruturado que uma consulta possa recuperar. Da perspectiva de um banco de dados, o laudo de radiologia, o resumo de alta e a nota cirúrgica estão na mesma categoria que uma cópia digitalizada de um prontuário de papel de 1998: digitalizados, mas não estruturados; armazenados, mas não pesquisáveis.
Um estudo publicado no Journal of Medical Internet Research (2025) analisou a sobreposição de informações entre códigos estruturados e anotações em texto livre de 1,8 milhão de pacientes e descobriu que apenas os dados estruturados — códigos CID, códigos de procedimentos, valores laboratoriais — capturavam apenas uma fração do quadro clínico. As anotações em texto livre continham "descrições detalhadas que capturam as nuances do cuidado ao paciente". Os campos estruturados do EHR informavam que o paciente havia passado por uma CRM. A nota cirúrgica informava como a CRM ocorreu — o que é extremamente importante para medição de qualidade, ajuste de risco e pesquisa clínica.
Isso não é uma falha de nenhum fornecedor específico de EHR. É uma consequência do propósito para o qual os EHRs foram projetados. Eles foram criados para capturar dados estruturados para faturamento e relatórios regulatórios. Não foram criados para extrair significado de narrativas. O fato de 80% dos dados clínicos estarem em texto livre não é um erro — é a consequência natural de clínicos documentarem o cuidado da forma como humanos comunicam informações complexas: em frases, não em menus suspensos.
Um EHR torna a documentação clínica digital. Não a torna estruturada. Extrair dados de uma narrativa radiológica armazenada no Epic exige o mesmo trabalho cognitivo que extraí-los de um relatório digitado em uma pasta de papel — ler, interpretar e transcrever as informações relevantes para um sistema separado. O meio mudou. O trabalho manual, não.
A Força de Trabalho de Abstração da Qual Ninguém Fala
Como os EHRs armazenam narrativas clínicas como blocos não pesquisáveis, os hospitais empregam toda uma classe profissional cujo trabalho em tempo integral é ler essas narrativas e inserir manualmente pontos de dados específicos em outros sistemas. Eles são chamados de abstradores de dados clínicos e representam um dos maiores custos trabalhistas ocultos na saúde americana.
Os abstradores de dados clínicos são geralmente enfermeiros registrados (RNs), Técnicos Registrados em Informação em Saúde (RHITs) ou Registradores Certificados de Tumores (CTRs) — clínicos licenciados ou profissionais de informação em saúde credenciados que revisam prontuários de pacientes e extraem elementos-chave de dados para relatórios de qualidade, registros clínicos, pesquisa e conformidade regulatória. O trabalho exige conhecimento clínico: você não pode abstrair um registro cirúrgico sem entender anatomia operatória, e não pode abstrair um registro cardíaco sem interpretar dados hemodinâmicos. A American Data Network, uma das maiores empresas terceirizadas de abstração clínica, descreve a tarefa central do abstrador como revisar "notas clínicas, resultados de exames, laudos de imagem e medicamentos" e traduzir "esses detalhes em campos estruturados."
A escala dessa força de trabalho é difícil de medir com precisão porque abstração não é um cargo padronizado — está incorporada em departamentos de qualidade, equipes de registro e unidades de pesquisa clínica. Mas a economia é visível no nível hospitalar. Uma apresentação de 2018 da equipe de operações de registro do Massachusetts General Hospital detalhou os custos de pessoal para 11 registros de sociedades de especialidades cirúrgicas em um único centro médico acadêmico:
| Registro | ETIs Necessários | Pacientes/Ano | Custo Anual de Pessoal |
|---|---|---|---|
| STS-Cardíaco (Cirurgia Cardíaca Adulta) | 3 ETIs de Enfermagem + 0,5 PSC | 1.300 | ~US$ 250.000–US$ 300.000 |
| ACS-NSQIP (Qualidade Cirúrgica) | 1,5 ETI de Enfermagem + analista + gerente | 1.800 | ~US$ 120.000–US$ 180.000 |
| ACS-NTDB e ACS-TQIP (Trauma) | 3,5 ETIs de equipe + 0,3 gerente | 2.500 | ~US$ 250.000–US$ 350.000 |
| STS-Torácico | 1 ETI de Enfermagem + gerente | 1.000 | ~US$ 80.000–US$ 120.000 |
| SRTR (Transplante de Órgãos Sólidos) | 7,0–10,0 ETIs de Enfermagem + 1,5 gerente | 750 | ~US$ 500.000–US$ 700.000 |
Fonte: Massachusetts General Hospital, Apresentação CMSS (2018). Estimativas baseadas nas faixas de ETI relatadas.
São cinco registros em um único hospital, consumindo aproximadamente US$ 1,2 a US$ 1,7 milhão em custos anuais de pessoal — e estes são apenas os registros para os quais o MGH divulgou publicamente dados de ETI. A maioria dos centros médicos acadêmicos participa de 8 a 15 registros. O Banco de Dados Nacional da Sociedade de Cirurgiões Torácicos cobre 95% das cirurgias cardíacas adultas nos EUA, com cada caso de CRM exigindo a abstração de mais de 200 elementos de dados abrangendo fatores de risco pré-operatórios, detalhes intraoperatórios e resultados 30 dias após a alta. A rede NCDR — operada pelo Colégio Americano de Cardiologia — inclui mais de 2.400 hospitais em seis registros que cobrem cateterismo cardíaco, implante de CDI, procedimentos valvares e muito mais.
Uma pesquisa do verão de 2024 realizada pela Carta Healthcare com abstraidores de dados clínicos em hospitais dos EUA constatou que 50% dos entrevistados passam mais da metade do tempo em entrada e abstração manual de dados. A pesquisa descreveu "um paradoxo preocupante: embora os clínicos considerem os registros essenciais para a melhoria da qualidade e dos processos, a tarefa árdua da abstração manual de dados está levando esses profissionais ao limite". Quando questionados sobre automação, 45% acreditavam que ferramentas automatizadas tornariam a abstração mais rápida para sua organização, 30% acreditavam que melhorariam a qualidade dos dados e 20% disseram que reduziriam custos. A demanda por automação vem dos próprios abstraidores — pessoas cujos empregos, em teoria, a automação poderia ameaçar. Na prática, o volume de dados a abstrair cresce mais rápido do que a força de trabalho consegue acompanhar.
No Reddit, o sentimento é mais direto. Um profissional de pesquisa clínica postou: "Passei horas tentando inserir dados de pacientes em um registro só para descobrir que há quase 100 pacientes neste registro (todos atrasados)." Outro tópico no r/clinicalresearch pergunta, simplesmente: "Quanto tempo geralmente se gasta em entrada de dados ou consulta de prontuários de pacientes em busca de informações?" — o tipo de pergunta que sinaliza um problema de fluxo de trabalho tão enraizado nas operações diárias que ninguém tem uma resposta de base, porque a resposta é "a maior parte do dia".
A escala econômica se torna visível quando se extrapola: um único abstraidor de dados clínicos que ganha US$ 75.000 por ano e gasta 50% do seu tempo em tarefas que consistem em ler um relatório, encontrar um valor específico e digitá-lo em outro sistema representa aproximadamente US$ 37.500 em mão de obra anual gasta em transcrição de fato. Multiplicado pela força de trabalho de abstração em um único hospital acadêmico com múltiplos registros — de 10 a 20 ETCs — isso representa de US$ 375.000 a US$ 750.000 por hospital por ano. Apenas nos 2.400 hospitais participantes do NCDR, o custo agregado da abstração manual de registros está conservadoramente na casa dos bilhões de dólares anualmente, sem considerar o custo de oportunidade de profissionais clínicos treinados realizando transcrição de dados em vez de trabalho voltado ao paciente.
Abstraidores de dados clínicos são a camada humana de estruturação entre EHRs e registros. O trabalho deles existe porque dois sistemas que ambos contêm dados clínicos — o EHR e o registro — não conseguem trocar esses dados sem que uma pessoa leia um e digite no outro. A força de trabalho de abstração não é uma lacuna temporária na pilha de tecnologia. Ela é a pilha de tecnologia.
Um Paciente, Cinco Registros — e Cinco Sessões de Coleta de Dados Separadas
A economia da abstração é multiplicada por uma característica estrutural dos registros clínicos que não tem equivalente em outros setores: múltiplos registros extraem dos mesmos documentos-fonte, mas não compartilham dados entre si.
Considere um paciente submetido a cirurgia de revascularização do miocárdio. O banco de dados de cirurgia cardíaca adulta da Society of Thoracic Surgeons (STS) exige mais de 200 elementos de dados para esse paciente: fatores de risco pré-operatórios (status de diabetes, fração de ejeção, ICP prévia), detalhes intraoperatórios (número de enxertos, tempo de pinçamento aórtico, uso de artéria mamária interna) e desfechos em 30 dias (mortalidade, AVC, infecção profunda de ferida esternal, insuficiência renal, ventilação prolongada).
O prontuário do mesmo paciente contém o mesmo relatório cirúrgico. Mas esse paciente também pode ser abstraído no Registro NCDR CathPCI — porque realizou cateterismo pré-operatório — e esse registro tem seu próprio dicionário de dados com definições de campo próprias. Se a cirurgia envolveu um procedimento valvar transcateter, o Registro STS/ACC TVT adiciona outro conjunto de variáveis. Se o paciente teve uma complicação que exigiu retorno ao centro cirúrgico, o registro de qualidade cirúrgica ACS NSQIP pode ser aplicável. Se o hospital participa de um programa Get With The Guidelines (GWTG) para a condição cardiovascular do paciente, esse é um quinto registro com seus próprios requisitos de abstração.
Todos os cinco registros leem os mesmos documentos de origem. O mesmo laudo de radiologia. A mesma nota operatória. O mesmo resumo de alta. Os mesmos valores laboratoriais. E em quase todos os hospitais dos Estados Unidos, cinco fluxos de trabalho diferentes de extração de dados — muitas vezes divididos entre diferentes extratores, às vezes a mesma pessoa fazendo o mesmo trabalho cinco vezes — extraem manualmente pontos de dados sobrepostos em cinco plataformas distintas de submissão de registros.
Os dados do MGH tornam isso visível. Um único hospital gerencia 11 registros cirúrgicos com requisitos de pessoal variando de 0,5 ETC (registros pequenos com ≤500 casos/ano) a 10 ETCs (registro de transplante com 750 casos/ano). As definições das variáveis frequentemente diferem entre os registros, mesmo para o mesmo conceito clínico — um registro define "insuficiência renal pós-operatória" com um limiar de creatinina, outro com um limiar ou janela de tempo diferente. O tempo de extração por caso varia de 15 minutos a 4 horas, dependendo da complexidade do registro e da evolução clínica do paciente.
Isso não é um problema de interoperabilidade tecnológica que o HL7 FHIR pode resolver. O FHIR pode padronizar o transporte de dados entre sistemas — garantindo que, quando o Sistema A envia um valor laboratorial para o Sistema B, ambos concordem com o formato da transmissão. O que o FHIR não pode fazer é transformar um parágrafo narrativo em um campo estruturado. Ele não pode ler um laudo de radiologia que diz "nódulo espiculado de 1,2 cm" e preencher um campo de registro para "tamanho do tumor na maior dimensão". Essa transformação — de prosa para dados estruturados — ainda exige um leitor humano ou um sistema de IA capaz de extração semântica. Os padrões de interoperabilidade resolveram o problema da transmissão. Eles não resolveram o problema da estruturação.
A documentação clínica de um único paciente pode alimentar cinco ou mais registros, cada um exigindo sua própria sessão de abstração do mesmo material de origem. O trabalho duplicado não é um erro de arredondamento — é uma característica estrutural de um sistema onde os registros foram construídos como silos independentes de coleta de dados, cada um com seu próprio dicionário de dados, definições de campos e protocolo de submissão.
A Ironia: Já Digital, Só Não Estruturado
Há uma narrativa persistente na TI da saúde de que o desafio é a "digitalização" — colocar registros em papel em computadores. Essa narrativa fazia sentido em 2005, quando a maioria dos hospitais usava prontuários em papel e a Lei HITECH ainda não havia começado. Não faz sentido hoje. Mais de 90% dos hospitais dos EUA usam um EHR. Os departamentos de radiologia estão sem filmes há mais de uma década; a maioria dos laudos radiológicos é gerada, assinada e distribuída inteiramente em fluxos de trabalho digitais de PACS para EHR. Os resumos de alta são digitados, não ditados em fitas cassete. As notas cirúrgicas são inseridas em módulos de EHR com modelos. A documentação clínica que mais importa — as narrativas que contêm as informações clínicas mais ricas — já é digital.
O gargalo não é a digitalização. O gargalo é a estruturação.
E o gargalo da estruturação tem uma forma específica e mensurável. É a lacuna entre "este paciente fez uma CRM" — um fato estruturado que o EHR pode relatar — e os 200 pontos de dados individuais que o registro da STS exige sobre como essa CRM ocorreu. Cada um desses 200 pontos de dados existe em algum lugar na documentação clínica: a fração de ejeção pré-operatória está no laudo do ecocardiograma, o número de enxertos está na nota cirúrgica, a duração da ventilação pós-operatória está na folha de sinais da UTI, o status de mortalidade em 30 dias vem de uma ligação telefônica de acompanhamento pós-alta documentada como uma nota de texto livre. A informação está no prontuário. Simplesmente não está em um formato que as máquinas possam ler.
Isso reformula toda a conversa sobre automação. A pergunta não é "podemos digitalizar a documentação clínica?" — esse navio já partiu. A pergunta é "podemos extrair dados estruturados de narrativas clínicas que já são digitais, sem contratar mais pessoas para ler e digitar?"
A diferença é importante porque altera o tipo de tecnologia que realmente resolve o problema. O OCR baseado em modelos — aquele que lê "onde" um campo está na página — foi projetado para documentos com layout fixo: formulários padronizados, tabelas impressas, faturas estruturadas. Uma nota cirúrgica não tem layout fixo. É um parágrafo narrativo, escrito por um cirurgião, descrevendo um procedimento que pode ser diferente a cada vez. Não é possível criar um modelo para uma narrativa. Só é possível compreendê-la.
É aqui que a atual geração de ferramentas de extração por IA — construídas com modelos de visão e linguagem (VLMs) em vez de OCR baseado em modelos — entra em cena. Um VLM não precisa saber onde na página a fração de ejeção está escrita. Ele precisa saber o que é uma fração de ejeção — que é um valor percentual, normalmente expresso como "EF 45%" ou "LVEF estimada em 40-45%" — e encontrá-la na narrativa onde quer que apareça. Isso é extração semântica, não extração baseada em coordenadas. Funciona com base no princípio de que conceitos clínicos têm assinaturas semânticas consistentes em narrativas com redações diferentes, e que um modelo treinado para entender linguagem pode encontrar "a fração de ejeção" independentemente de o cardiologista ter escrito "EF 40%" ou "função sistólica do VE moderadamente reduzida, EF estimada em 40-45%".
A ineficiência central na abstração de dados clínicos não é que os documentos estejam em papel. É que os documentos existem como prosa — prosa rica, cheia de nuances e clinicamente valiosa — e os sistemas que precisam dos dados desses documentos exigem campos estruturados. O problema da digitalização está resolvido. O problema da estruturação é onde estão os bilhões em trabalho manual.
O Que Estruturar Dados Clínicos Realmente Significa
Se o gargalo é a estruturação — e não a digitalização — então a solução não é um scanner melhor nem um digitador mais rápido. É um sistema que consiga ler narrativas clínicas da mesma forma que um abstraccionista humano as lê: entendendo o significado de cada frase, identificando quais conceitos se mapeiam para quais campos do registro e produzindo uma saída estruturada que um humano possa então validar.
Esta é uma tarefa fundamentalmente diferente daquilo para que a maioria das ferramentas de automação de documentos foi criada. Ferramentas tradicionais de extração de documentos — aquelas que lidam com faturas e ordens de compra — funcionam aprendendo o layout de um formulário. Elas memorizam que "Número da Fatura" aparece no canto superior direito e "Total" aparece no final da última página. Quando uma nova fatura chega do mesmo fornecedor, a ferramenta lê as mesmas coordenadas e extrai os mesmos campos. Quando um fornecedor diferente envia uma fatura formatada de outra forma, a ferramenta precisa de um novo modelo.
As narrativas clínicas derrotam essa abordagem em duas frentes. Primeiro, não há um layout fixo — um resumo de alta do Hospital A e um resumo de alta do Hospital B são ambos narrativas, mas organizam as informações de forma diferente, usam cabeçalhos distintos e expressam conceitos clínicos com vocabulário variado. Segundo, e mais fundamentalmente, os dados em si não são posicionais. Você não encontra "tempo de pinçamento cruzado 47 minutos" numa caixa específica da nota operatória. Você o encontra inserido num parágrafo, rodeado por outros detalhes cirúrgicos, escrito no estilo de prosa que o cirurgião preferir.
A extração semântica resolve isso operando sobre o significado, não sobre a posição. O VLM lê o documento inteiro, entende quais conceitos clínicos estão presentes e extrai os valores que correspondem a cada conceito — independentemente de onde na página o conceito aparece, qual redação o autor usou ou se o documento é um PDF digitado, um relatório escaneado ou uma captura de tela da interface do EHR. O extrator não precisa ser retreinado para o formato de documentação de cada novo hospital, pois não está aprendendo formatos — está reconhecendo conceitos.
O fluxo de trabalho prático não é "a IA substitui o abstrator". É "a IA cuida da etapa de leitura, e o abstrator cuida da etapa de validação". A IA preenche os mais de 200 campos do registro cardíaco do STS a partir da nota operatória, do resumo de alta, do laudo de ecocardiograma e da nota de acompanhamento. O abstrator — um enfermeiro com experiência em cirurgia cardíaca — revisa os campos preenchidos, corrige eventuais erros de extração, aplica julgamento clínico em casos ambíguos e submete o registro validado. O tempo do abstrator passa de encontrar dados (rolar 80 páginas de documentação do EHR, a parte que consome mais de 50% do dia de trabalho segundo a pesquisa da Carta) para validar dados (a parte que exige expertise clínica e não pode ser automatizada).
Para um paciente submetido a CRM (cirurgia de revascularização do miocárdio), cuja abstração atualmente leva de 45 a 90 minutos — abrangendo documentação pré-operatória, intraoperatória e pós-operatória em vários módulos do prontuário eletrônico — uma ferramenta de extração semântica que realiza a coleta inicial de dados pode reduzir o tempo por caso do abstrator pela metade ou mais. A matemática é simples: se um enfermeiro abstrator que ganha US$ 40/hora processa 1.300 casos de CRM por ano (o volume relatado pelo MGH para seu registro STS-Cardíaco), e a extração assistida por IA economiza 30 minutos por caso, isso representa 650 horas de trabalho de enfermagem recuperadas anualmente — aproximadamente US$ 26.000 em custos salariais recuperados, redirecionados da transcrição para validação e melhoria da qualidade. Em cinco registros, em 2.400 hospitais, o total agregado não é um erro de arredondamento.
Perguntas Frequentes
Por que os EHRs simplesmente não tornam a documentação clínica estruturada por padrão?
Porque a entrada de dados estruturados — menus suspensos, caixas de seleção, vocabulários restritos — é fundamentalmente incompatível com a forma como os médicos pensam e se comunicam. Uma caixa de seleção pode capturar "dor torácica: presente", mas não pode capturar "paciente descreve pressão subesternal intermitente irradiando para o ombro esquerdo, piora com esforço, alivia com repouso, início há aproximadamente 2 semanas, frequência crescente." A caixa de seleção captura um código de faturamento. A narrativa captura o raciocínio clínico. Forçar os médicos a documentar exclusivamente em campos estruturados produziria dados que as máquinas podem ler, mas que outros médicos não podem usar. A troca é real, e a comunidade médica — corretamente — optou por documentação clinicamente útil em vez de documentação amigável para máquinas.
Em quantos registros clínicos um hospital típico participa?
Um hospital comunitário pode participar de 3 a 5 registros — geralmente cobrindo AVC (GWTG), procedimentos cardíacos (NCDR CathPCI) e qualidade cirúrgica (ACS NSQIP). Um grande centro médico acadêmico normalmente participa de 10 a 15 registros, abrangendo cirurgia cardíaca (STS), trauma (TQIP), transplante (SRTR), oncologia (NCDB) e vários registros de subespecialidades. Os dados publicados do MGH cobrem 11 registros; muitos centros acadêmicos ultrapassam esse número. Cada registro adiciona FTEs de abstração, e os FTEs se acumulam porque os registros não compartilham dados.
Que tipos de documentos clínicos precisam de abstração manual?
Os documentos que geram mais trabalho de abstração são laudos de radiologia, resumos de alta, notas operatórias, notas de evolução e laudos de patologia — os documentos com narrativa densa, onde estão as informações clínicas mais ricas. Valores laboratoriais, prescrições de medicamentos e sinais vitais são dados estruturados que os EHRs podem exportar diretamente. O trabalho manual se concentra esmagadoramente nos documentos de texto livre que contêm o raciocínio clínico e as nuances que os campos estruturados nunca foram projetados para capturar.
A IA realmente consegue ler um laudo de radiologia com precisão suficiente para uso em registros?
Modelos de linguagem visual podem extrair pontos de dados discretos de narrativas radiológicas — dimensões de tumores, lateralidade, modalidade de imagem, recomendações de acompanhamento — com precisão que os torna viáveis como ferramenta de primeira passagem para um abstrator validar. Eles não substituem a revisão clínica, pois os laudos de radiologia contêm ambiguidades (impressões com ressalvas, medidas qualificadas como "aproximadamente") que exigem interpretação humana. A arquitetura adequada é a abstração assistida por IA: o modelo preenche os campos, o abstrator valida. Este é o mesmo modelo que a pesquisa da Carta descobriu que os abstratores desejavam — ferramentas que reduzem o tempo de busca manual sem substituir o julgamento clínico.
Qual é a diferença entre digitalização e estruturação na documentação clínica?
Digitalizar significa converter um documento do formato físico para o eletrônico — escanear um prontuário em papel, gerar um PDF a partir de um prontuário eletrônico, armazenar uma imagem em um PACS. O documento agora é um arquivo. Estruturar significa converter o conteúdo desse documento de texto narrativo para campos de dados discretos e pesquisáveis — extrair "tempo de pinçamento: 47 minutos" de um parágrafo em uma nota cirúrgica e preencher um campo de banco de dados chamado "tempo_pinçamento_minutos" com o valor "47". A digitalização cria um arquivo que um humano pode ler. A estruturação cria dados que uma máquina pode usar. O problema na documentação clínica é que a digitalização aconteceu, mas a estruturação não a acompanhou — e é por isso que hospitais ainda contratam pessoas para fazê-la manualmente.
A verdade estrutural da documentação clínica: Os EHRs tornaram os dados clínicos digitais, mas não estruturados. Os registros exigem dados estruturados, mas não conseguem extraí-los de narrativas. Entre esses dois sistemas incompatíveis, há uma força de trabalho de milhares de enfermeiros e profissionais de informação em saúde, preenchendo manualmente a lacuna — um relatório de cada vez, um campo de cada vez, um registro de cada vez — muitas vezes lendo os mesmos documentos e extraindo os mesmos dados para cinco sistemas diferentes em cinco sessões separadas. O custo não é apenas o salário dos abstraidores. É o talento clínico desviado do cuidado ao paciente para a transcrição de dados. É a participação em registros que hospitais não podem pagar e, portanto, ignoram — deixando lacunas de qualidade não medidas. São as perguntas de pesquisa que ficam sem resposta porque os dados existem em prosa que ninguém tem orçamento para estruturar. A extração por IA não resolve todas as camadas desse problema — o julgamento clínico, as definições de campos de registro e as regras específicas de pagadores continuam sendo domínios humanos. O que ela resolve é a camada que nunca deveria ter sido humana em primeiro lugar: ler um parágrafo e digitar a resposta em uma caixa.