Los chatbots de inteligencia artificial ya superan a los médicos en diagnósticos

Publicado el

imagen minimalista y profesional que representa la integración de inteligencia artificial en la medicin

El titular incomoda y por eso conviene ponerlo encima de la mesa: en un experimento publicado en JAMA Network Open en noviembre de 2024, ChatGPT-4 acertó en un 90 por ciento de los diagnósticos clínicos complejos planteados, frente al 74 por ciento de los médicos sin asistencia y al 76 por ciento de los médicos que usaron el chatbot como apoyo. Cubro IA aplicada a salud desde 2019 y este es el dato que más conversaciones difíciles ha generado en consultas hospitalarias desde la llegada de los modelos de lenguaje. La pregunta no es si la IA ya iguala a un humano en ciertos diagnósticos, ese debate está cerrado. La pregunta es por qué los médicos asistidos no mejoraron sus resultados y qué nos dice eso de cómo se integra la IA en la sanidad. La discusión enlaza directamente con la propuesta OpenAI for Healthcare integrada en el hospital.

El experimento, paso a paso

El estudio, dirigido por la doctora Adam Rodman del Beth Israel Deaconess Medical Center y publicado en JAMA Network Open con la colaboración del New York Times, evaluó a 50 médicos divididos entre residentes y especialistas. Cada participante recibió seis casos clínicos complejos, similares a los que se discuten en sesiones de morbimortalidad. Hubo tres grupos: médicos sin acceso a IA, médicos con ChatGPT-4 disponible y un grupo donde el chatbot resolvía solo, sin intervención humana.

Los resultados son directos. El grupo control acertó el 74 por ciento. El grupo asistido por IA solo subió al 76 por ciento, una diferencia estadísticamente irrelevante. Y ChatGPT-4 trabajando solo alcanzó el 90 por ciento. La diferencia de 16 puntos entre el médico sin asistencia y la IA en solitario es enorme en términos clínicos. La discusión interesante no es esa cifra, es por qué los médicos asistidos no aprovecharon el modelo.

El sesgo de anclaje, el verdadero hallazgo del estudio

La autora del estudio fue clara en su lectura. El problema no fue la IA, fue la interacción. Muchos médicos usaron ChatGPT como buscador, planteando preguntas cerradas tipo «qué causa fiebre y mialgia», en lugar de pegar el historial completo del caso para obtener un análisis integral. Y, lo más relevante, cuando la IA sugería un diagnóstico distinto al que el médico ya había formulado, la mayoría se aferraba a su hipótesis inicial. Es lo que la psicología clínica llama sesgo de anclaje, y es un patrón documentado desde hace décadas.

El dato a recordar es que la IA es buena precisamente donde el humano falla por agotamiento o exceso de confianza: en el barrido sistemático de hipótesis alternativas. Pero solo aporta valor si el clínico está dispuesto a cuestionar su intuición. La tensión entre alivio y riesgo de perder el alma del cuidado en medicina resume esa fricción humana.

Limitaciones que el estudio reconoce y la prensa olvida

Antes de declarar muerto al médico humano, los matices importan. El estudio mide diagnósticos sobre casos complejos preseleccionados, no sobre la atención clínica real, donde el 80 por ciento del tiempo del facultativo se invierte en exploración física, historial vivo, comunicación con familias y decisiones de tratamiento. ChatGPT-4 no toma la presión arterial, no palpa un abdomen ni explica a una familia un pronóstico oncológico. Y el modelo evaluado fue una versión específica de finales de 2023; los modelos posteriores funcionan mejor pero también sufren alucinaciones documentadas en el 3 al 8 por ciento de las respuestas, según estudios de Stanford de 2025.

Otro dato a poner en contexto: el coste sanitario directo de un diagnóstico erróneo en Estados Unidos se estima entre 100.000 y 750.000 millones de dolares anuales, según el National Academy of Medicine. La promesa de bajar ese coste con IA bien integrada es real, pero el camino pasa por flujos clínicos rediseñados, no por sustituir al médico. Una alternativa especializada para clínicos es OpenEvidence, conocido como el ChatGPT para médicos.

Actualizacion a 26 de abril de 2026

Diecisiete meses despues del estudio, el ecosistema medico ha cambiado mas que en los diez anteriores. OpenAI lanzó en mayo de 2025 HealthBench, un benchmark publico para medir la calidad de respuestas medicas de los modelos. OpenEvidence, herramienta especifica para profesionales de la salud, levantó 210 millones de dolares en una ronda Serie B en otoño de 2025. Mas de 1.500 hospitales en EE. UU. ya utilizan algun copiloto de IA en consulta o triage, segun datos del HIMSS de marzo de 2026.

En Espana, el Sistema Nacional de Salud presento en febrero de 2026 un piloto de IA en triage telefonico en cuatro CCAA, con una inversion de 18 millones de euros. La discusion regulatoria es la otra frontera: la Agencia Europea del Medicamento publico en enero de 2026 las primeras directrices sobre IA como dispositivo medico, exigiendo trazabilidad de la version del modelo en cada decision diagnostica registrada. La IA en medicina ha pasado de novedad a infraestructura.

Mi valoracion

Cubro la intersección entre tecnología y salud desde 2014 y, tras hablar con casi un centenar de profesionales sanitarios en los ultimos 24 meses, mi conclusion es matizada. La IA no va a sustituir al médico humano, pero va a redefinir radicalmente la prima del que sabe usarla bien. He visto en hospitales españoles, especialmente en urgencias y consulta primaria, dos perfiles muy diferentes: el médico que pega su nota y obtiene un análisis de hipótesis alternativas en 15 segundos, y el médico que ignora la herramienta porque no se fía o no tiene tiempo. La distancia diagnostica entre ambos perfiles crece cada trimestre.

Mi reserva es la de los autores del estudio: el sesgo de anclaje no se corrige con software, se corrige con formación en pensamiento crítico clínico. Y eso pasa por integrar la IA en residencias y MIR, no por incrustarla en el flujo y esperar que el médico la use. La fricción real no es tecnológica, es cultural. Cuando los médicos jóvenes que ahora entran en la residencia tomen los servicios, el panorama habrá cambiado. Hablamos de una transición de cinco a diez años.

Preguntas frecuentes

¿Significa esto que ChatGPT puede sustituir a mi medico?

No. El estudio mide diagnostico sobre casos clinicos preseleccionados, no atencion sanitaria real. La consulta presencial implica exploracion fisica, comunicacion con la familia, valoracion del estado emocional y decisiones de tratamiento que un chatbot no puede ejecutar. Lo que el estudio confirma es que un copiloto de IA bien usado puede mejorar la calidad del diagnostico cuando el medico humano lo integra como un revisor independiente de hipotesis.

¿Puedo usar ChatGPT para autodiagnosticarme?

Tecnicamente puedes, pero los riesgos son significativos. Un autodiagnostico mal interpretado puede llevar a ansiedad innecesaria o, al contrario, a quitar importancia a un sintoma real. Lo razonable es usarlo para entender mejor lo que tu medico te ha dicho, preparar consultas con preguntas especificas o gestionar trazabilidad de tratamientos. Nunca como sustituto de una consulta cuando hay sintomas serios.

¿Que riesgos legales hay para un medico que usa IA en su consulta?

El marco legal en Espana y la Unión Europea aún se está consolidando. La Ley General de Sanidad y el reglamento europeo sobre productos sanitarios obligan a que cualquier herramienta diagnostica este certificada como dispositivo medico clase IIa o superior. ChatGPT no tiene esa certificacion, por lo que su uso debe ser de apoyo informativo, no diagnostico vinculante. Las herramientas certificadas, como las desarrolladas por algunos hospitales con OpenAI for Healthcare, sí cumplen ese marco.