PULSE-HF: cuando un ECG intenta anticipar si la insuficiencia cardíaca irá a peor

La insuficiencia cardíaca no es una dolencia “de golpe”, sino una historia que se escribe poco a poco. Cuando el músculo del corazón se debilita o se daña, el bombeo pierde fuerza y el cuerpo empieza a “acumular tráfico”: líquidos que se quedan donde no deberían, como en los pulmones o en las piernas. Con el tiempo, ese atasco puede traducirse en falta de aire, hinchazón, cansancio extremo y, en escenarios graves, arritmias o incluso muerte súbita.

Durante siglos, el arsenal terapéutico fue tan rudimentario como desesperado: sangrías y sanguijuelas, en manos de barberos cirujanos, en una época en la que muchos médicos evitaban operar. Hoy, el enfoque suena mucho más sensato: cambios de estilo de vida, medicación y, para algunos pacientes, dispositivos como marcapasos. Aun así, la insuficiencia cardíaca sigue siendo un enorme problema de salud pública y un peso para los sistemas sanitarios.

Esa presión se nota en una cifra que los clínicos conocen bien: una parte importante de los pacientes con diagnóstico de insuficiencia cardíaca fallece en los años posteriores. En ese contexto, predecir quién empeorará tras una hospitalización no es un ejercicio académico; es una manera de decidir a quién llamar antes, a quién vigilar más de cerca y cómo repartir recursos que siempre son finitos.

La pieza clave: la fracción de eyección del ventrículo izquierdo

Si el corazón fuera una bomba de agua doméstica, la pregunta no sería si hace ruido, sino cuánta agua consigue mover en cada ciclo. En cardiología, ese “rendimiento” se resume en la fracción de eyección del ventrículo izquierdo (LVEF, por sus siglas en inglés): el porcentaje de sangre que el ventrículo izquierdo expulsa con cada latido. En términos generales, un corazón sano suele moverse en un rango aproximado del 50 al 70%. Cuando ese porcentaje cae, el riesgo clínico sube.

Medir la LVEF suele implicar un ecocardiograma, una prueba accesible en hospitales, pero no siempre disponible en entornos con menos recursos o en zonas rurales. Incluso cuando hay acceso, repetir ecocardiogramas con frecuencia no es trivial: cuesta tiempo, personal, agenda y dinero. Por eso, la idea de inferir el riesgo de caída futura de LVEF a partir de un electrocardiograma (ECG) resulta tan atractiva: el ECG es rápido, barato y ubicuo.

De la “foto” al “pronóstico”: qué hace PULSE-HF

Aquí entra en escena PULSE-HF, un modelo de aprendizaje profundo desarrollado por un equipo de MIT, Mass General Brigham y Harvard Medical School, en el laboratorio de Collin Stultz, vinculado a la MIT Abdul Latif Jameel Clinic for Machine Learning in Health. El trabajo se publicó en Lancet eClinicalMedicine, un detalle relevante porque sitúa el proyecto en un circuito de evaluación biomédica exigente.

Lo interesante de PULSE-HF no es que “detecte” insuficiencia cardíaca en un ECG, algo que ya se ha intentado con múltiples enfoques. Su ambición es más parecida a una predicción meteorológica que a una fotografía: toma un ECG y estima si, en el plazo de un año, la LVEF del paciente caerá por debajo del 40%, un umbral asociado a formas especialmente severas de insuficiencia cardíaca. Dicho de forma sencilla, el sistema intenta responder a una pregunta que muchos pacientes se hacen sin verbalizarla: “¿Voy a estar peor dentro de unos meses?”

En el artículo, sus coautoras principales —Teya Bergamaschi y Tiffany Yau, doctorandas en el grupo— subrayan esa diferencia entre diagnóstico y pronóstico. La lógica clínica es directa: si se puede identificar con antelación a quienes tienen más probabilidades de deteriorarse, se pueden priorizar revisiones, ajustar tratamientos y planificar mejor el seguimiento tras el alta.

Resultados y por qué importan en la consulta

Para evaluar el rendimiento del modelo, los investigadores recurrieron a una métrica habitual en clasificación clínica: el AUROC (área bajo la curva ROC). Es una forma de medir qué tan bien separa un modelo dos grupos, en este caso quienes probablemente sufrirán una caída importante de LVEF frente a quienes no. Un AUROC de 0,5 equivale a acertar como si se lanzara una moneda; acercarse a 1 implica una discriminación excelente.

PULSE-HF se probó de forma retrospectiva en tres cohortes distintas: pacientes de Massachusetts General Hospital, de Brigham and Women’s Hospital y el conjunto de datos público MIMIC-IV. En ese entorno de validación, el modelo logró valores de AUROC en torno a 0,87–0,91, un rango que sugiere un desempeño sólido y relativamente consistente entre poblaciones diferentes.

Traducido a la vida real, la promesa es menos tecnológica y más práctica. Un paciente que sale del hospital con insuficiencia cardíaca suele entrar en un carrusel de visitas, pruebas y ajustes. Si una herramienta como PULSE-HF marca alto riesgo de deterioro, el equipo clínico puede “ponerlo al principio de la cola” para seguimiento más cercano. Si marca bajo riesgo, se podría espaciar parte del control y reducir visitas que, para muchas personas, implican transporte, esperas y el coste invisible de reorganizar la semana.

Un modelo que funciona incluso con un solo cable

Uno de los hallazgos que más llaman la atención es que el equipo construyó también una versión para ECG de una sola derivación. El ECG estándar de 12 derivaciones es como escuchar una orquesta con micrófonos por secciones: ofrece una imagen rica y completa. Un ECG de una derivación se parece más a captar el concierto con el micrófono del móvil: menos información, más limitaciones, teóricamente menos precisión.

Pese a esa intuición, la versión de una derivación rindió con una fuerza comparable a la de 12 derivaciones en los experimentos reportados. Si ese resultado se mantiene en estudios posteriores, abre una puerta importante: seguimiento más sencillo, menos dependencia de colocar diez electrodos y más posibilidades de despliegue en consultas pequeñas o centros sin infraestructura cardiológica avanzada. También encaja con el auge de dispositivos portátiles que registran señales eléctricas básicas, aunque la transición de “promesa” a “herramienta clínica” siempre exige prudencia.

El trabajo invisible: datos reales, PDFs y ruido en la señal

En investigación clínica con IA en salud, la idea suele caber en una frase; la ejecución ocupa años. En este proyecto, buena parte del esfuerzo estuvo en algo poco glamuroso: reunir, sincronizar y limpiar datos de ECG y ecocardiogramas para construir etiquetas fiables. En aprendizaje automático, las etiquetas son el “solucionario” que guía al modelo. Si las etiquetas son ambiguas, incompletas o están mal extraídas, el sistema aprende patrones equivocados con una seguridad que puede engañar.

El equipo se encontró con un problema cotidiano en hospitales: los informes de ecocardiograma a menudo están en PDF, un formato pensado para lectura humana, no para alimentar modelos. Convertir esos PDFs a texto suele introducir saltos de línea, desorden y fragmentación, como si una receta quedara mezclada y repartida en varias páginas sin orden. A eso se suman los artefactos propios del mundo real: pacientes inquietos, electrodos que se despegan, interferencias, señales con ruido. Limpiar una señal biomédica puede parecerse a intentar escuchar una conversación en un bar lleno: puedes filtrar algo, pero siempre hay un punto en el que el filtro empieza a borrar también información útil.

Las investigadoras plantean una reflexión que conviene tener presente: perseguir datos “perfectos” puede hacer que el modelo funcione solo en condiciones ideales, justo las que menos se parecen a la práctica diaria. Si el objetivo es ayudar en clínica, quizá sea preferible un sistema robusto ante datos algo “sucios”, siempre que se entienda bien su margen de error y su contexto de uso.

Lo que falta antes de verlo en rutina clínica

El estudio, tal y como se presenta, es retrospectivo: el modelo se entrena y evalúa mirando hacia atrás, con resultados ya conocidos. El siguiente paso natural —y el que el equipo anticipa— es un estudio prospectivo, con pacientes cuya evolución futura todavía no se sabe en el momento de la predicción. Ese salto suele ser el verdadero examen, porque obliga a convivir con la variabilidad del día a día y con decisiones clínicas reales.

También quedan preguntas habituales en este tipo de herramientas: cómo se integra en el flujo de trabajo, qué umbral de riesgo se considera accionable, cómo se evita la fatiga por alertas, si el desempeño se mantiene en poblaciones distintas a las de los hospitales de origen, y qué controles se fijan para detectar sesgos. La promesa de PULSE-HF es sugerente: convertir un ECG en una señal de “pronóstico” para anticipar deterioro de LVEF. La responsabilidad, si llega a usarse, será que esa predicción no se convierta en una profecía rígida, sino en una brújula más, útil para decidir con tiempo y reducir sufrimiento.