Del algoritmo al cuidado real: la importancia de la validación clínica de la IA

Resumen:
La inteligencia artificial avanza rápidamente en el ámbito de la medicina, pero una estadística del MIT revela que cerca del 95% de los proyectos piloto de IA fracasan al ser implementados en el mundo real. ¿La razón? Una excelente precisión técnica en ambientes controlados no garantiza seguridad a la cabecera del paciente.
Este tercer artículo de la serie editorial «IA en la Salud: Credibilidad, Seguridad e Impacto en la Práctica Clínica» aborda el pilar de la validación clínica. Entienda por qué probar algoritmos en escenarios asistenciales heterogéneos y combatir los sesgos ocultos de las bases de datos es el único camino para transformar la tecnología en una herramienta médica verdaderamente confiable y segura.
Principales temas abordados:
- El desfase entre la teoría y la práctica.
- Validación técnica frente a validación clínica.
- El riesgo de los sesgos ocultos.
- La solución práctica de los Epimed Prediction Models.
- La importancia de una base representativa.
- La responsabilidad clínica como un compromiso institucional.
Contenido:
En los últimos años, los avances de la inteligencia artificial (IA) han generado un gran entusiasmo y altas expectativas. Cada día surgen nuevos modelos capaces de procesar grandes volúmenes de datos e identificar patrones que antes pasaban desapercibidos. El sector salud, históricamente uno de los más cautelosos en la adopción de nuevas tecnologías, emerge hoy como uno de los tres principales sectores en los que la IA se ha incorporado de forma acelerada. ¹
En los últimos diez años, casi 300 mil artículos científicos sobre el tema han sido indexados en PubMed —la principal plataforma de investigación en ciencias de la vida—, con un crecimiento exponencial.

Publicaciones indexadas en PubMed que contienen «inteligencia artificial», «machine learning» y «agentes de IA» (consulta realizada el 28/05/2026)
Sin embargo, cuando el escenario se traslada de las publicaciones científicas al mundo real, el criterio de éxito cambia radicalmente. Un algoritmo puede presentar buenos resultados en un estudio, generalmente conducido con una base de datos retrospectiva o en un entorno controlado. En el entorno hospitalario, lo que está en juego no es el poder de cómputo de una herramienta, sino la seguridad del paciente y la precisión de la decisión médica. Un estudio reciente del MIT² señaló que cerca del 95% de los proyectos piloto con IA fracasan cuando se implementan en el mundo real.
En el sector salud, esto es aún más crítico. Cuando se presenta un nuevo modelo de IA, la pregunta más frecuente es: ¿cuál es su exactitud? Esta, sin embargo, no es la pregunta más importante. La que realmente importa es otra: ¿este modelo funciona, de forma confiable, consistente y segura, en la rutina asistencial y en la toma de decisiones reales?
La distinción entre un modelo que tiene un buen desempeño en un entorno controlado y un modelo confiable en la práctica clínica es lo que se define como “validación clínica”. Este es el criterio más relevante y, al mismo tiempo, el menos considerado para evaluar cualquier solución de IA en salud.
La validación técnica y la validación clínica no significan lo mismo
Prácticamente todos los modelos de IA pasan por algún tipo de validación antes de estar disponibles. Sin embargo, en la mayoría de los casos, esta validación ocurre en condiciones que no reflejan el mundo real, como se destacó en el artículo anterior de esta serie. ³
En la validación técnica, el desempeño del modelo se evalúa en un conjunto de datos de prueba, con el objetivo principal de medir la sensibilidad, la especificidad y la exactitud mediante el área bajo la curva ROC (AUC-ROC). Son métricas importantes, sin duda, pero responden a una pregunta retrospectiva: ¿el modelo aprendió bien de los datos que recibió? Vale la pena resaltar que estas bases pueden estar compuestas por datos recopilados hace muchos años, sujetos a sesgos y patrones diferentes a las variables actuales.
La validación clínica es un paso posterior de gran relevancia. Responde a una pregunta mucho más exigente: ¿El modelo mantiene un buen desempeño cuando el contexto cambia o cuando los pacientes no corresponden exactamente al perfil con el que el algoritmo fue entrenado?
Los datos clínicos reales son heterogéneos, contienen variables no registradas o con valores inverosímiles o dispares, y abarcan poblaciones con perfiles epidemiológicos distintos. Un modelo entrenado con datos de hospitales universitarios de los Estados Unidos puede tener un desempeño completamente diferente en una UCI de un hospital general en México o Brasil. La validación clínica es, precisamente, el proceso de verificar con rigor si el modelo funciona en el contexto en el que realmente se utilizará.
El riesgo de los sesgos ocultos
Durante mucho tiempo, la discusión sobre los riesgos de la IA en salud se concentró en las alucinaciones: situaciones en las que los modelos de lenguaje producen respuestas incorrectas o, en algunos casos, completamente fabricadas. Se trata de un riesgo real, pero no es el más prevalente en los modelos de IA aplicados a la salud.
Recientemente, los sesgos en las bases de entrenamiento pasaron a ser considerados los riesgos más relevantes; sin embargo, estos no se manifiestan como errores obvios. Aparecen en situaciones en las que un modelo subestima sistemáticamente el riesgo en un determinado perfil de pacientes y lo sobreestima en otros. También pueden presentar un desempeño inferior en poblaciones subrepresentadas en los datos de entrenamiento. Para agravar el problema, estos sesgos ocultos tienden a acumularse de forma silenciosa y, para cuando se identifican, ya han producido daños concretos. ⁴
Una validación clínica rigurosa es la protección más eficaz contra este riesgo. Exige que el modelo sea probado en poblaciones diversas, en contextos variados y con un seguimiento prospectivo de los resultados.
Un ejemplo concreto: los Epimed Prediction Models
Epimed Solutions fue fundada en 2008 por médicos intensivistas con una comprensión precisa de las exigencias de seguridad y evidencia que guían la toma de decisiones en salud. Pionera en la disponibilidad de modelos de IA en salud a través de Epimed Monitor Performance desde hace diez años, Epimed no trata a la IA como una tendencia tecnológica reciente, sino como una evolución natural de sus soluciones analíticas.
Los Epimed Prediction Models son modelos predictivos que utilizan técnicas de machine learning para los principales desenlaces clínicamente relevantes en cuidados intensivos, implementados a gran escala en Brasil y América Latina. No se presentan como proyectos piloto o pruebas de concepto, sino como soluciones en uso real, en hospitales de diferentes tamaños y perfiles, integradas al flujo asistencial de las UCI en todo el continente.
Los modelos se desarrollaron a partir de la base de datos de pacientes críticos más grande del mundo, construida a lo largo de casi dieciocho años, con una depuración técnico-científica continua por parte de un equipo de médicos intensivistas con un profundo conocimiento de la realidad asistencial.
Son más de 9 millones de ingresos hospitalarios en más de 900 hospitales de diferentes tamaños y perfiles en las 27 entidades federativas del país, lo que representa aproximadamente el 50% de las camas de UCI del territorio nacional. Este historial no es un detalle menor; es el principal diferenciador que hace posible una validación clínica robusta a partir de datos confiables, estructurados y representativos.
Cuando un profesional de la salud recibe una estimación del riesgo de mortalidad, una predicción de hospitalización o de ventilación mecánica prolongada, o una alerta de riesgo de reingreso a la UCI generada por un modelo de IA, debe poder confiar en esa información. No porque el sistema declare que el modelo tiene una buena exactitud, sino porque existe evidencia, generada en un contexto real, de que ese modelo funciona.
Esa confianza no se decreta; se construye con datos de calidad, una validación rigurosa, una implementación monitoreada y un compromiso con la mejora continua. La validación clínica no es burocracia: es responsabilidad clínica. Este es el compromiso de Epimed Solutions.
______________________________________________________________________________________________________
¹ AI Adoption by the Numbers
https://www.a16z.news/p/ai-adoption-by-the-numbers
² The GenAI Divide: State of AI in Business 2025
https://mlq.ai/media/quarterly_decks/v0.1_State_of_AI_in_Business_2025_Report.pdf
³ El papel de la depuración de datos en la confiabilidad de la IA en salud
https://www.epimedsolutions.com/o-papel-da-curadoria-de-dados-na-confiabilidade-da-ia-em-saude/
⁴ Bias recognition and mitigation strategies in artificial intelligence healthcare applications
https://www.nature.com/articles/s41746-025-01503-7
______________________________________________________________________________________________________
Esta es la tercera publicación de la serie editorial «IA en la Salud: Credibilidad, Seguridad e Impacto en la Práctica Clínica», producida por Epimed Solutions.
Autor: Dr. Marcio Soares, médico científico e investigador sénior en Terapia Intensiva en el IDOR, cofundador y vicepresidente de Investigación y Desarrollo de Epimed Solutions, profesor asociado del Programa de Posgrado en Medicina Interna de la UFRJ; ubicado entre el 2% de los científicos más influyentes del mundo (Stanford–Elsevier, 2020–2025).