Como Extrair Dados de Radiologia e Resumo de Alta
para Auditorias Clínicas
A maioria dos EHRs hospitalares consegue exportar um laudo de radiologia ou resumo de alta como PDF em menos de dez segundos. O que eles não conseguem — o que quase nenhum sistema de informação clínica consegue — é exportar os dados dentro desse laudo como campos estruturados. O tipo de exame, o código CID-10, o parágrafo de impressão, a lista de medicamentos de alta: tudo presente na página, tudo legível por um humano, nada extraível como pontos de dados discretos sem que alguém abra o PDF e digite. Essa lacuna — entre "os dados existem" e "os dados são utilizáveis" — é onde a abstração de registros clínicos, auditorias de qualidade e coleta de dados de pesquisa absorvem centenas de horas que nenhuma rubrica orçamentária contabiliza.
Principais Conclusões
- Um único caso de registro clínico leva de 20 a 30 minutos de extração manual — e quase todo esse tempo é gasto redigitando campos como tipo de exame e código CID-10 (diagnóstico) que já estão visíveis no PDF.
- Os prontuários eletrônicos exportam laudos de radiologia e alta como PDFs narrativos que humanos leem, mas nenhum banco de dados hospitalar consegue consultar — os dados são digitais, mas presos em prosa, e nenhuma velocidade de digitação fecha essa lacuna estrutural.
- Defina dez nomes de colunas uma vez — Tipo de Exame, Impressão, Medicamentos de Alta — envie centenas de PDFs, e o ImageToTable.ai preenche uma planilha lendo pelo significado, não pela posição na página, transformando 30 minutos de transcrição em 30 segundos de verificação.
Dois Tipos de Documento, Um Mesmo Problema de Extração
Relatórios de radiologia e resumos de alta estão em extremos opostos da internação hospitalar de um paciente — um captura um momento diagnóstico, o outro resume toda a admissão — mas compartilham o mesmo problema de acessibilidade de dados. Ambos são gerados como documentos narrativos. Ambos contêm campos que registros clínicos, bancos de dados de pesquisa e auditorias de qualidade precisam como valores estruturados. E, na maioria dos sistemas hospitalares, ambos saem do prontuário eletrônico como PDFs, sem nenhuma dessa estrutura intacta.
Um relatório de radiologia segue uma arquitetura interna notavelmente consistente. O Parâmetro de Prática do Colégio Americano de Radiologia (ACR) para Comunicação de Achados de Imagem Diagnóstica define cinco seções padrão: indicação clínica (por que o exame foi solicitado), técnica (modalidade, contraste, parâmetros de imagem), comparação (com estudos anteriores), achados (a narrativa detalhada do que o radiologista observou) e impressão (a conclusão diagnóstica concisa). O Sistema de Dados e Relatórios de Imagem da Mama (BI-RADS) — amplamente considerado o padrão ouro de relatórios estruturados — demonstra o que acontece quando cada uma dessas seções é mapeada para campos discretos e pesquisáveis. Mas o BI-RADS é a exceção. A maioria dos relatórios de radiologia são ditados em texto livre que usam essas seções de forma inconsistente ou nem as usam, deixando os dados presos em prosa.
Um resumo de alta segue um modelo diferente, mas igualmente previsível. O padrão RC.02.04.01 da Joint Commission exige seis componentes principais: motivo da internação, achados significativos, procedimentos e tratamentos realizados, condição do paciente na alta, medicamentos de alta e instruções de acompanhamento. O Centers for Medicare & Medicaid Services adiciona seus próprios requisitos sob a Condição de Participação para o planejamento de alta. Todo hospital credenciado produz resumos de alta que contêm esses elementos. Mas o formato — quais campos são rotulados, quais estão embutidos em texto livre, se os diagnósticos aparecem com códigos CID ou como descrições em linguagem simples — varia muito entre hospitais e até entre departamentos do mesmo hospital.
Ambos os tipos de documento seguem uma estrutura conhecida. Nenhum dos tipos fornece essa estrutura como dados extraíveis. O resultado é um fluxo de trabalho onde abstraidores de dados clínicos, coordenadores de pesquisa e especialistas em melhoria da qualidade passam seu tempo lendo PDFs e copiando valores para planilhas — um trabalho que não tem nada a ver com julgamento clínico e tudo a ver com uma lacuna de formato que a indústria de prontuários eletrônicos não fechou.
O que Extrair de um Laudo Radiológico
Um laudo radiológico contém mais texto do que a maioria das pessoas imagina. Um TC de tórax com contraste típico gera um laudo com vários parágrafos, mas os campos que você realmente precisa para um registro ou auditoria cabem em cerca de dez colunas. O resto — o nome do técnico responsável, os detalhes da dose de radiação, o timestamp da digitação — são informações contextuais que o PDF pode manter.
Os dez campos que valem a pena extrair e por que cada um importa:
| Campo | O Que Captura | Por Que Extrair |
|---|---|---|
| Tipo de Exame | TC, RM, Raio-X, Ultrassom, Medicina Nuclear | Critérios de inclusão do registro frequentemente filtram por modalidade |
| Parte do Corpo | Tórax, Crânio, Abdome, Extremidade, Coluna | Organiza a coorte por região anatômica para análise de subgrupos |
| Indicação Clínica | Motivo do exame (ex.: "descartar TEP") | Valida se o estudo atende aos critérios de inclusão do registro |
| Técnica | Uso de contraste, espessura de corte, sequências específicas | Padronização da técnica entre os casos para análise comparativa |
| Achados | Relato completo — observações detalhadas do radiologista | Fonte primária para adjudicação de eventos clínicos e análise de PLN |
| Impressão | Conclusão diagnóstica concisa (1-4 linhas) | Caminho mais rápido para classificação do caso; geralmente a única seção que um auditor lê |
| Radiologista | Nome do médico responsável pela interpretação | Monitoramento de confiabilidade entre avaliadores, controle de qualidade por médico |
| Médico Solicitante | Clínico que solicitou o exame | Análise de padrões de encaminhamento, métricas de utilização por departamento |
| Data do Exame | Quando a imagem foi realizada | Ancoragem temporal para todas as análises temporais |
| Data do Laudo | Quando o laudo foi finalizado | Métricas de tempo de resposta; análise do intervalo entre laudo e ação |
O campo Achados merece atenção especial. Com 200 a 500 palavras em um laudo típico, é longo demais para redigitar e denso demais em informações para ignorar. É o campo onde "consolidação no lobo inferior direito" e "sem evidência de embolia pulmonar" coexistem — conclusões opostas que um formulário de abstração baseado em caixas de seleção reduziria a uma única flag "anormal", perdendo a especificidade que torna os dados úteis para pesquisa. Extrair a narrativa completa preserva essa granularidade. A filtragem e codificação podem vir depois; o que importa na etapa de extração é que nada seja prematuramente simplificado.
O que Extrair de um Resumo de Alta
Enquanto os laudos de radiologia são narrativas estruturadas, os resumos de alta são híbridos semiestruturados — uma mistura de campos discretos (data de internação, data de alta) e seções de texto livre (evolução hospitalar, instruções de alta). Essa natureza híbrida é exatamente o que torna a abstração manual tão demorada. Os campos discretos são fáceis de encontrar, mas tediosos de digitar. As seções de texto livre exigem compreensão de leitura para localizar os valores específicos — um diagnóstico enterrado no terceiro parágrafo, uma alteração de medicação descrita no quinto parágrafo.
Os dez campos que importam para abstração em registros, pesquisa e auditoria:
| Campo | O Que Captura | Por Que Extrair |
|---|---|---|
| MRN do Paciente | Número do Prontuário | Identificador único do paciente para deduplicação e acompanhamento longitudinal |
| Data de Internação | Data da admissão hospitalar | Data do evento índice para cálculo do tempo zero do registro |
| Data de Alta | Data da alta hospitalar | Ponto final para cálculos de tempo de internação e janela de readmissão |
| Tempo de Internação | Data de Alta − Data de Internação em dias | Métrica central de qualidade; pode ser calculada a partir das duas datas acima |
| Código CID-10 Primário | Diagnóstico principal (ex.: I21.4 para IAMSSST) | Critério primário de inclusão/exclusão para a maioria dos registros |
| Códigos CID-10 Secundários | Comorbidades e diagnósticos secundários | Ajuste de risco, pontuação de comorbidade (Charlson, Elixhauser) |
| Códigos de Procedimentos CPT | Procedimentos realizados durante a internação | Inclusão em registros baseados em procedimentos, análise de custos |
| Medicações de Alta | Nome do medicamento, dose, frequência, duração | Medida de qualidade central para registros de IAM, insuficiência cardíaca e AVC |
| Consultas de Acompanhamento | Acompanhamento agendado com especialidade, data, local | Métrica de qualidade da transição do cuidado; fator de risco para readmissão |
| Médico Responsável pela Alta | Médico responsável no momento da alta | Atribuição por profissional para relatórios de qualidade |
As medicações de alta são consistentemente o campo mais difícil de abstrair manualmente — não porque a informação é difícil de encontrar, mas porque contém quatro subcampos (medicamento, dose, frequência, duração) que geralmente aparecem em um único parágrafo de texto. Uma seção de reconciliação medicamentosa pode listar "Metoprolol succinato 50 mg VO diariamente, continuar em casa" em uma linha e "Apixabana 5 mg VO 12/12h por 30 dias, depois 2,5 mg 12/12h" na seguinte. O abstrator precisa analisar cada linha em campos componentes antes de inseri-los no registro — efetivamente realizando entrada e normalização de dados simultaneamente.
Passo a Passo: Da Exportação de PDF à Planilha Estruturada
O fluxo de trabalho que substitui a abstração manual tem quatro etapas. Nenhuma delas exige programação, implantação de TI ou integração com prontuário eletrônico. A entrada é um conjunto de PDFs exportados do sistema de informação hospitalar. A saída é uma planilha Excel com uma linha por documento e uma coluna por campo.
Exporte relatórios do EHR como PDFs
A maioria dos EHRs hospitalares — Epic, Cerner, Meditech — inclui uma opção de exportar para PDF para laudos de radiologia e resumos de alta. Selecione os casos necessários para sua auditoria ou registro, exporte-os e reúna os PDFs em uma única pasta. Um projeto de abstração de registro pode envolver de 50 a 500 relatórios. O projeto de pesquisa de um residente pode envolver 30. O fluxo de extração lida com ambas as escalas da mesma forma.
Defina as colunas necessárias
Este é o núcleo do processo — e a etapa que diferencia a extração semântica do OCR baseado em modelos. Em vez de desenhar retângulos ao redor de cada campo em uma página de amostra, você digita os nomes das colunas relevantes para o seu projeto. Para uma auditoria de radiologia, podem ser: Data do Exame, Tipo de Exame, Parte do Corpo, Impressão. Para uma abstração de registro baseada em alta: MRN, Data de Admissão, Data de Alta, ICD-10 Primário, Procedimentos CPT, Medicamentos de Alta. A IA lê cada documento enviado, entende o significado semântico de cada rótulo de campo e localiza o valor correspondente, independentemente de onde ele aparece na página ou como é redigido. Você também pode deixar os nomes das colunas em branco e permitir que a IA detecte automaticamente o conteúdo do documento — útil para uma varredura inicial quando você ainda não tem certeza de quais campos estão consistentemente disponíveis em todos os relatórios.
Faça upload e deixe a IA extrair
Faça upload de todos os PDFs em um único lote — 20 laudos de radiologia, 50 resumos de alta ou uma mistura de ambos. Cada documento é processado de forma independente. A IA mapeia os valores encontrados para as colunas que você definiu. Um laudo do Hospital A que classifica o tipo de exame como "TC de Tórax c/ Contraste" e um laudo do Hospital B que o classifica como "Tomografia Computadorizada — Tórax" preenchem a mesma coluna "Tipo de Exame", porque a IA entende que esses são o mesmo conceito, e não porque correspondem à mesma string. O resultado é uma única planilha com colunas consistentes em todos os documentos de origem.
Verifique campos críticos e exporte
Nenhum pipeline de extração — automatizado ou manual — deve pular uma etapa de verificação para dados clínicos. No entanto, a carga de verificação é muito mais leve do que a abstração manual completa. Em vez de ler cada campo e digitar cada valor, você examina a planilha em comparação com os PDFs originais e faz verificações pontuais: O código ICD-10 primário está correto? As datas de alta estão precisas? As listas de medicamentos parecem completas? A verificação geralmente leva de 30 a 60 segundos por caso, em comparação com os 20 a 30 minutos que uma abstração manual completa de prontuário exige. A IA cuida da transcrição; seu papel muda de entrada de dados para garantia de qualidade.
Um comportamento importante da planilha: ao enviar uma mistura de laudos de radiologia e resumos de alta no mesmo lote, cada linha na saída representa um documento. Um laudo de radiologia terá valores em colunas como "Tipo de Exame" e "Impressão", mas células em branco em "Medicações de Alta" e "Consultas de Acompanhamento". Um resumo de alta mostrará o oposto. Esse comportamento é correto — a planilha é uma união de todas as colunas que você definiu, e cada documento preenche as colunas relevantes ao seu tipo. Para projetos que precisam de ambos os tipos de documento, a planilha única se torna naturalmente uma tabela mestra de dados onde você pode filtrar por tipo de documento para isolar registros apenas de radiologia ou apenas de alta.
Quatro Casos Clínicos Onde a Extração Substitui a Digitação
O fluxo de trabalho descrito acima não é teórico. Ele se aplica diretamente aos cenários mais comuns onde os abstraidores de dados clínicos passam horas transferindo dados de relatórios narrativos para bancos de dados estruturados.
Abstração de Registros Clínicos (STS, GWTG, NCDR)
O Banco de Dados Nacional da Sociedade de Cirurgiões Torácicos (STS), o NCDR do Colégio Americano de Cardiologia (incluindo módulos CathPCI, Dor Torácica-IAM e FA) e o programa Get With The Guidelines (GWTG) da Associação Americana do Coração exigem elementos de dados discretos extraídos de prontuários de pacientes. Um único caso CathPCI pode exigir mais de 150 pontos de dados. Um único caso GWTG-AVC pode exigir mais de 80. Esses pontos de dados estão dispersos em notas de admissão, relatórios de procedimentos, resumos de alta e laudos de imagem — e a tarefa do abstracionista é encontrar cada um em um PDF e digitá-lo na interface de coleta de dados do registro.
A extração não elimina o fluxo de abstração — alguns campos do registro exigem julgamento clínico que apenas um abstracionista treinado pode fornecer. Mas elimina a etapa de transcrição para os campos que aparecem textualmente em laudos de radiologia e resumos de alta: datas de exames, códigos CID-10, nomes de procedimentos, listas de medicamentos. O abstracionista começa com uma planilha pré-preenchida contendo esses valores e, em seguida, adiciona os campos dependentes de julgamento por cima. A diferença entre extrair 80 campos do zero e extrair 30 campos após 50 terem sido preenchidos automaticamente é a diferença entre uma produtividade de 3 casos por dia e 8.
Auditorias de Melhoria da Qualidade
Os departamentos de qualidade hospitalar rotineiramente selecionam prontuários para auditorias focadas — conformidade com o tempo porta-balão, taxas de reconciliação medicamentosa na alta, critérios de uso apropriado para exames de imagem avançados. Cada auditoria começa com uma lista de casos e termina com uma planilha, e o meio do processo é a revisão manual de prontuários. Para uma auditoria de 100 laudos de radiologia verificando se a indicação clínica foi documentada antes da administração de contraste, extrair o campo "Indicação Clínica" de cada PDF para uma única coluna transforma meio dia de leitura em cinco minutos de varredura de uma coluna de planilha.
O Royal College of Radiologists mantém uma biblioteca com mais de 100 modelos de auditoria em radiologia, cada um especificando quais elementos de dados precisam ser coletados. A maioria desses elementos — tipo de exame, tempo de espera, prazo de entrega do laudo, conformidade com padrões de laudo — existe como campos discretos nos laudos de radiologia. Extraí-los para uma planilha antes de iniciar a análise da auditoria encurta a fase de coleta de dados de um ciclo de auditoria que os modelos do RCR normalmente estimam em várias semanas de trabalho em tempo parcial.
Identificação de Casos para Pesquisa Clínica
Um coordenador de pesquisa que monta uma coorte para um estudo retrospectivo precisa triar resumos de alta para critérios específicos de inclusão: um diagnóstico primário de insuficiência cardíaca descompensada aguda, um tempo de internação superior a 48 horas e uma lista de medicamentos de alta que inclua um betabloqueador. Com a revisão manual, isso significa abrir cada PDF, ler para encontrar os campos relevantes e registrar uma decisão sim/não para cada critério. Com a extração, os códigos CID-10, o tempo de internação e a lista de medicamentos já estão em uma planilha — o coordenador tria classificando e filtrando, não lendo.
O ganho de eficiência não é apenas de tempo; é de completude. Uma triagem manual de 200 prontuários inevitavelmente perde casos em que o critério de qualificação é expresso de forma diferente do esperado — "exacerbação de ICC" em vez de "insuficiência cardíaca descompensada aguda", ou "metoprolol" listado em "medicamentos de uso contínuo" em vez de "medicamentos de alta". Uma IA que lê o documento completo de forma semântica captura essas variações ao entender o que significam, não ao corresponder cadeias de caracteres. A coorte triada é maior e mais completa — dois atributos que melhoram diretamente o poder estatístico do estudo resultante.
Preparação da Revisão de Mortalidade
Os comitês de revisão de mortalidade hospitalar — exigidos pela maioria dos órgãos de acreditação e cada vez mais obrigatórios por regulamentações estaduais de qualidade — devem revisar todo óbito de pacientes internados. Cada revisão requer um resumo do caso extraído do sumário de alta: data de internação, diagnóstico principal, procedimentos realizados durante a internação, desfecho da alta (neste caso, óbito) e quaisquer complicações documentadas ou eventos inesperados. Montar esses resumos para uma reunião mensal de revisão de mortalidade com 20 a 50 casos significa que um especialista em qualidade gasta dias extraindo os mesmos campos do mesmo tipo de documento, caso após caso.
Extrair os campos do sumário de alta para uma planilha — uma linha por falecido, uma coluna por elemento de revisão obrigatório — produz uma tabela resumo que pode ser distribuída aos membros do comitê antes da reunião. O tempo de preparação do especialista em qualidade passa da montagem de dados para a triagem de casos: quais casos precisam de análises mais aprofundadas, quais mostram padrões que merecem investigação, quais seguem uma trajetória clínica previsível.
O que a Extração por IA Pode e Não Pode Fazer com Texto Clínico
Ser específico sobre limitações não é fraqueza em contexto clínico — é o que diferencia uma ferramenta confiável de uma que promete demais. Eis onde está o limite.
Ela extrai o que está escrito, não o que está implícito. Se um resumo de alta diz "paciente hipotenso durante a noite, respondeu a fluidos", a IA extrai essa frase como texto do curso hospitalar. Ela não infere que o paciente teve um episódio hipotenso com gravidade ou duração específicas. A inferência clínica — o julgamento de que esse episódio constitui uma complicação para fins de registro — permanece com o abstraidor. A IA fornece a matéria-prima; o abstraidor fornece a interpretação clínica.
Anotações manuscritas em relatórios impressos reduzem a precisão. Um PDF nítido gerado diretamente de um prontuário eletrônico produz extração confiável. Uma impressão digitalizada — especialmente com anotações manuscritas nas margens, artefatos de fax ou múltiplas gerações de fotocópia — pode degradar a precisão em texto próximo às áreas danificadas. Se seu fluxo de trabalho envolve imprimir relatórios, anotá-los e digitalizá-los novamente, a extração capturará o texto impresso de forma confiável, mas as anotações manuscritas com precisão variável dependendo da legibilidade.
Campos aninhados complexos podem confundir o mapeamento semântico. Se uma lista de medicamentos de alta for formatada como um parágrafo não estruturado (em vez de uma tabela), a IA pode interpretar "Metoprolol 50 mg ao dia, Lisinopril 10 mg ao dia, Apixaban 5 mg duas vezes ao dia" como três entradas de medicamentos. Se estiver formatada como uma tabela densa com células mescladas, espaçamento inconsistente e continuação entre quebras de página — como alguns formatos antigos de relatórios hospitalares — a precisão no mapeamento de subcampos (medicamento vs. dose vs. frequência) diminui. Nesses casos, extrair o texto completo do medicamento como um único campo e subdividi-lo manualmente após a extração pode ser mais prático do que esperar que a IA interprete perfeitamente uma tabela mal formatada.
A conformidade com a HIPAA depende do seu manuseio, não da ferramenta. O processo de extração processa arquivos na memória e não os armazena após a sessão. Mas enviar dados de pacientes para qualquer ferramenta baseada em nuvem exige um Acordo de Parceiro de Negócios (BAA) se os dados contiverem informações de saúde protegidas. A ferramenta processa dados em conexões criptografadas, mas a responsabilidade pela conformidade com a HIPAA no seu contexto institucional específico — incluindo se um BAA é necessário e se seu IRB ou escritório de privacidade aprova o fluxo de trabalho — é sua.
FAQ
Funciona com relatórios digitalizados em papel ou apenas com PDFs nativos?
Ambos. PDFs nativos gerados diretamente de um prontuário eletrônico produzem os resultados mais confiáveis, pois o texto é de origem digital. Relatórios digitalizados em papel — incluindo aqueles que foram impressos, anotados e re-digitalizados — são processados pela leitura direta da imagem do texto, sem uma etapa separada de pré-processamento de OCR. A precisão em relatórios digitalizados depende da qualidade da digitalização: uma digitalização limpa a 300 DPI de um relatório impresso tem desempenho quase tão bom quanto um PDF nativo. Uma cópia de fax de uma cópia com alinhamento torto e sombreamento intenso terá menor precisão, especialmente em textos com fontes pequenas, como dosagens de medicamentos.
E se meu hospital usar cabeçalhos de seção diferentes dos descritos aqui?
A extração não corresponde a cabeçalhos de seção por string exata. Se os laudos de radiologia do seu hospital nomearem a seção de impressão como "Conclusão" ou "Avaliação" — ou se o resumo de alta chamar a evolução hospitalar de "Resumo da Internação" — a IA reconhece esses como equivalentes semânticos. Os nomes de colunas que você define servem como rótulos canônicos, e a IA gerencia o mapeamento a partir de qualquer terminologia que cada relatório usar. Isso significa que você pode adicionar um relatório de um novo hospital ou de um novo departamento a qualquer momento sem reconfigurar nada.
O mesmo lote pode conter laudos de radiologia e resumos de alta?
Sim. Ao definir colunas que incluem campos de ambos os tipos de documento — por exemplo, Tipo de Exame, Impressão, Data de Admissão e Medicamentos de Alta — cada laudo de radiologia preenche as colunas específicas de radiologia (deixando em branco as colunas específicas de alta), e cada resumo de alta preenche as colunas específicas de alta (deixando em branco as colunas específicas de radiologia). A planilha gerada contém todas as linhas com todas as colunas, e você pode filtrar por tipo de documento ou por preenchimento de uma coluna específica para isolar registros apenas de radiologia ou apenas de alta.
Como lidar com medicamentos de alta listados como texto livre, em vez de em uma tabela?
Se a lista de medicamentos estiver formatada como texto contínuo, em vez de uma tabela estruturada, defina sua coluna como "Medicamentos de Alta" (o texto completo), em vez de tentar extrair subcampos (medicamento, dose, frequência) em uma única passada. A IA capturará o bloco completo de texto dos medicamentos. Você pode então subdividi-lo manualmente no Excel ou executar uma segunda passada de extração apenas no texto dos medicamentos para analisá-lo em subcampos estruturados. Começar com o texto completo como coluna oferece tanto a velocidade da extração automatizada para o caso geral quanto a flexibilidade para lidar com listas de medicamentos não estruturadas, sem forçar a IA a tomar decisões de análise que são melhor feitas por um revisor humano.
É adequado para um pequeno projeto de pesquisa ou apenas para trabalhos em larga escala com registros?
O fluxo de trabalho se adapta tanto para escalas menores quanto maiores. Um residente conduzindo um estudo retrospectivo com 30 pacientes se beneficia da extração exatamente da mesma forma que um abstraidor de registros processando 300 casos — a economia de tempo por caso se acumula de forma linear. Na verdade, a extração pode ser mais valiosa para projetos de pesquisa pequenos, pois geralmente não têm orçamento para equipe dedicada de abstração. O residente que precisa montar um banco de dados de 30 casos após as atividades clínicas é quem menos pode absorver 20 horas de entrada manual de dados — e quem mais se beneficia ao transformar essas 20 horas em 2.