Do algoritmo ao cuidado real: a importância da validação clínica da IA

Nos últimos anos, os avanços da inteligência artificial (IA) trouxeram grande entusiasmo e expectativas. A cada dia, surgem novos modelos capazes de processar grandes volumes de dados e identificar padrões que antes passavam despercebidos. O setor de saúde, historicamente um dos mais cautelosos na adoção de novas tecnologias, desponta hoje como um dos três principais setores em que a IA tem sido incorporada de forma acelerada. ¹
Nos últimos dez anos, quase 300 mil artigos científicos sobre o tema foram indexados no PubMed, a principal plataforma de pesquisa em ciências da vida, com crescimento exponencial.

Publicações indexadas no PubMed contendo “inteligência artificial”,
“machine learning” e “agentes de IA” (consulta realizada em 28/05/2026).
Entretanto, quando o cenário se desloca das publicações científicas para o mundo real, o critério de sucesso muda radicalmente. Um algoritmo pode apresentar bons resultados em um estudo, geralmente conduzido com base de dados retrospectiva ou em ambiente controlado. No ambiente hospitalar, o que está em jogo não é o poder computacional de uma ferramenta, mas a segurança do paciente e a precisão da decisão médica. Um estudo recente do MIT² apontou que cerca de 95% dos projetos-piloto com IA falham quando implementados no mundo real.
No setor de saúde, isso é ainda mais crítico. Quando um novo modelo de IA é apresentado, a pergunta mais frequente é: qual é a acurácia? Esta, porém, não é a pergunta mais importante. A que realmente importa é outra: esse modelo funciona — de forma confiável, consistente e segura — na rotina assistencial e na tomada de decisão reais?
A distinção entre um modelo que performa bem em ambiente controlado e um modelo confiável na prática clínica é o que se define como “validação clínica”. Esse é o critério mais relevante e, ao mesmo tempo, o menos considerado para avaliar qualquer solução de IA em saúde.
Validação técnica e validação clínica não têm o mesmo significado
Praticamente todos os modelos de IA passam por algum tipo de validação antes de serem disponibilizados. No entanto, na maior parte dos casos, essa validação ocorre em condições que não refletem o mundo real, como destacado no artigo anterior desta série. ³
Na validação técnica, o desempenho do modelo é avaliado em um conjunto de dados de teste, tendo como objetivo principal medir sensibilidade, especificidade e acurácia por meio da área sob a curva ROC. São métricas importantes, sem dúvida, mas respondem a uma pergunta retrospectiva: o modelo aprendeu bem com os dados que recebeu? Vale ressaltar que essas bases podem ser compostas de dados coletados há muitos anos, sujeitas a vieses e padrões diferentes das variáveis.
A validação clínica é um passo posterior de grande relevância. Ela responde a uma pergunta muito mais exigente: o modelo mantém bom desempenho quando o contexto muda ou quando os pacientes não correspondem exatamente ao perfil em que o algoritmo foi treinado?
Dados clínicos reais são heterogêneos, contêm variáveis não registradas ou com valores implausíveis ou díspares e abrangem populações com perfis epidemiológicos distintos. Um modelo treinado em dados de hospitais universitários dos Estados Unidos pode ter desempenho completamente diferente em uma UTI de hospital geral no Brasil. A validação clínica é, precisamente, o processo de verificar com rigor se o modelo funciona no contexto em que será de fato utilizado.
O risco dos vieses ocultos
A discussão sobre os riscos da IA em saúde concentrou-se, por muito tempo, nas alucinações — situações em que modelos de linguagem produzem respostas incorretas ou, em alguns casos, inteiramente fabricadas. Trata-se de um risco real, mas não o mais prevalente nos modelos de IA aplicados à saúde.
Recentemente, os vieses nas bases de treinamento passaram a ser considerados os riscos mais relevantes, mas estes não aparecem como erros óbvios. Manifestam-se em situações nas quais um modelo subestima sistematicamente o risco em determinado perfil de pacientes e o superestima em outros. Podem ainda apresentar desempenho inferior em populações sub-representadas nos dados de treinamento. Agravando o problema, esses vieses ocultos tendem a se acumular silenciosamente e, quando identificados, já produziram danos concretos. ⁴
A validação clínica rigorosa é a proteção mais eficaz contra esse risco. Ela exige que o modelo seja testado em populações diversas, em contextos variados, com acompanhamento prospectivo dos resultados.
Um exemplo concreto: os Epimed Prediction Models
A Epimed Solutions foi fundada em 2008 por médicos intensivistas, com compreensão precisa das exigências de segurança e evidência que orientam a tomada de decisão em saúde. Pioneira na disponibilização de modelos de IA em saúde por meio do Epimed Monitor Performance há dez anos, a Epimed não trata a IA como tendência tecnológica recente, mas como evolução natural de suas soluções analíticas.
Os Epimed Prediction Models são modelos preditivos que utilizam técnicas de machine learning para os principais desfechos clinicamente relevantes em cuidados intensivos, implementados em larga escala no Brasil e na América Latina. Não como projetos-piloto ou provas de conceito, mas como soluções em uso real, em hospitais de diferentes portes e perfis, integradas ao fluxo assistencial de UTIs em todo o país.
Os modelos foram desenvolvidos a partir da maior base de dados de pacientes críticos do mundo, construída ao longo de quase dezoito anos, com curadoria técnico-científica contínua, por uma equipe de médicos intensivistas com profundo conhecimento da realidade assistencial brasileira.
São mais de 9 milhões de internações em mais de 900 hospitais de diferentes portes e perfis, nos 27 estados da federação, representando aproximadamente 50% do parque de leitos de UTI do país. Esse histórico não é um detalhe; é o principal diferencial que torna possível uma validação clínica robusta, a partir de dados confiáveis, estruturados e representativos.
Quando um profissional de saúde recebe uma estimativa de risco de mortalidade, uma predição de internação ou ventilação mecânica prolongada, ou um alerta de risco de reinternação em UTI gerado por um modelo de IA, precisa poder confiar nessa informação. Não porque o sistema declara que o modelo tem boa acurácia, mas porque há evidência, gerada em contexto real, de que aquele modelo funciona.
Essa confiança não se declara. Constrói-se com dados de qualidade, validação rigorosa, implementação monitorada e compromisso com a melhoria contínua. Validação clínica não é burocracia: é responsabilidade clínica. Esse é o compromisso da Epimed Solutions.

______________________________________________________________________________________________________
¹ AI Adoption by the Numbers
https://www.a16z.news/p/ai-adoption-by-the-numbers
² The GenAI Divide: State of AI in Business 2025
https://mlq.ai/media/quarterly_decks/v0.1_State_of_AI_in_Business_2025_Report.pdf
³ O papel da curadoria de dados na confiabilidade da IA em saúde
https://www.epimedsolutions.com/o-papel-da-curadoria-de-dados-na-confiabilidade-da-ia-em-saude/
⁴ Bias recognition and mitigation strategies in artificial intelligence healthcare applications
https://www.nature.com/articles/s41746-025-01503-7
______________________________________________________________________________________________________
Esta é a terceira publicação da série editorial “IA na Saúde: Credibilidade, Segurança e Impacto na Prática Clínica”, produzida pela Epimed Solutions.
Autor: Dr. Marcio Soares, médico-cientista e pesquisador sênior em Terapia Intensiva no IDOR, cofundador e vice-presidente de Pesquisa e Desenvolvimento da Epimed Solutions, professor associado do Programa de Pós-Graduação em Medicina Interna da UFRJ; entre os 2% de cientistas mais influentes do mundo (Stanford–Elsevier, 2020–2025).



