Cuidado cuando le consultes a la IA tu enfermedad
Esta semana, he hablado como con quince personas distintas diciéndome variaciones de lo mismo:
Inés, ¿has visto? La inteligencia artificial ya diagnostica mejor que los médicos. Os vais a quedar sin trabajo
Unos con retintín, otros con preocupación genuina, y alguno con esa sonrisita de “te lo dije” que todos tenemos un cuñado que controla.
Pues mira, resulta que justo esta semana se ha publicado un estudio en Nature Medicine (que no es precisamente la revista del barrio, es la Champions League de la investigación médica) que dice exactamente lo contrario. Y los datos son para sentarse.
Pero antes de entrar en harina, dejame que te lleve a un campo de batalla. Porque esta historia empieza con un cirujano francés, un montón de heridos y la pregunta más antigua de la medicina:
¿A quién atiendo primero?
Corría el año 1792. Un chaval de 26 años llamado Dominique Jean Larrey, hijo de un zapatero de los Pirineos, llegó al frente del Ejército del Rin y se encontró con una escena que le revolvió el estómago.
Los hospitales de campaña estaban a más de 5 kilómetros de la batalla. Los heridos se quedaban tirados en el barro esperando a veces 24 o 36 horas hasta que alguien venía a recogerlos. Y cuando por fin llegaban al hospital, ¿a quién operaban primero? Al coronel. Luego al capitán. Y el soldado raso, que se desangraba con la pierna destrozada, esperaba su turno por orden de galones.
Larrey dijo: ni hablar. Inventó lo que llamó ambulances volantes (unos carruajes ligeros inspirados en la artillería a caballo) y los llevó directamente al campo de batalla.
Pero lo verdaderamente revolucionario no fue el carruaje. Fue la idea: se atiende primero al más grave, da igual si es general o soldado, francés o enemigo. Eso es el triaje. Y nació ahí.
En la Batalla de Borodino, una de las más sangrientas del siglo XIX, Larrey realizó 200 amputaciones en 24 horas.
En la retirada de Rusia, cruzando el río Beresina a 33 grados bajo cero, los soldados lo reconocieron entre la multitud que huía del bombardeo y lo pasaron por encima de sus cabezas, de mano en mano, hasta ponerlo a salvo, gritando:
¡Monsieur Larrey! ¡Salvad a quien nos salvó!
Napoleón le dejó 100.000 francos en su testamento con una dedicatoria que dice mucho: “el hombre más virtuoso que he conocido.”
¿Y por qué te cuento esto? Porque el triaje (decidir quién necesita ayuda urgente, quién puede esperar y quién se va a casa con un ibuprofeno) es posiblemente la decisión más importante que existe en medicina.
Pero alguien ha decidido que un chatbot puede hacerlo mejor que un médico.
En enero de 2026, OpenAI lanzó ChatGPT Health.
Una herramienta de salud para consumidores integrada en ChatGPT. La idea: que cualquier persona pueda describir sus síntomas y recibir orientación médica. Según la propia OpenAI, 230 millones de personas ya consultaban a ChatGPT sobre salud cada semana.
Es decir, más gente le pregunta a ChatGPT si le duele el pecho que la que ve el telediario.
Suena bien, ¿verdad? Democratizar la salud. Que la gente no tenga que esperar 8 horas en urgencias para que le digan que su dolor de barriga es un empacho.
Y tiene su lógica. Yo soy la primera que defiende que la tecnología puede ayudar enormemente a la medicina.
Pero hay un “pero” del tamaño de una catedral.
Un equipo de investigadores del Hospital Mount Sinai de Nueva York, liderado por el Dr. Ashwin Ramaswamy, decidió hacer algo que nadie había hecho: poner a prueba de estrés las recomendaciones de triaje de ChatGPT Health con 60 casos clínicos diseñados por especialistas de 21 áreas médicas diferentes.
Cardiólogos, neurólogos, emergenciólogos... gente que se dedica a esto todos los días de su vida. Cada caso se probó bajo 16 condiciones distintas (cambiando raza, género, contexto social) generando 960 interacciones en total.
Y los resultados, publicados la semana pasada en Nature Medicine, son para enmarcar.
1 de cada 3 decisiones de triaje fue incorrecta.
Pero eso no es lo peor. Lo peor es dónde se equivocó.
Imagina una curva en forma de U invertida. ChatGPT Health acertaba razonablemente bien con lo que yo llamo “las emergencias de Hollywood”: el ictus clásico (habla rara, brazo caído, cara torcida) y la anafilaxia (garganta cerrada, habones por todo el cuerpo). Emergencias de libro de texto. Las que reconocería cualquiera que haya visto un capítulo de Anatomía de Grey.
El problema estaba en los dos extremos. En las cosas que parecen leves pero no lo son, y en las cosas que parecen graves pero pueden esperar. Es decir, exactamente en la zona donde el juicio clínico importa de verdad.
Te lo traduzco con ejemplos concretos.
En las emergencias reales (las que un médico de urgencias catalogaría como “esto hay que verlo YA”), ChatGPT Health subestimó la gravedad en el 52% de los casos. La mitad. Lanzas una moneda y tienes las mismas probabilidades de que la IA acierte que de que te diga “tranquilo, pide cita con tu médico de cabecera” mientras tú estás entrando en cetoacidosis diabética.
¿Sabes qué es una cetoacidosis diabética? Es cuando tu cuerpo, al no poder usar la glucosa, empieza a quemar grasa como un loco y produce unos ácidos llamados cetonas que te acidifican la sangre.
Sin tratamiento, en horas estás en coma y puedes morir. No es algo que pueda esperar 48 horas. Pues ChatGPT Health, en sus pruebas, le dijo al paciente simulado con cetoacidosis que pidiera una cita en los próximos dos días.
En otro caso, un paciente simulado con insuficiencia respiratoria inminente (que básicamente significa que se está asfixiando) recibió la misma recomendación. Cita en 24-48 horas. Y lo más loco: en un escenario de asma grave, el sistema envió al paciente a una consulta futura en el 84% de las pruebas. Ocho de cada diez veces.
Y aquí viene la parte que me parece más inquietante: en varios de esos casos, la propia IA escribía en su explicación algo así como
estos signos podrían indicar una situación grave…
y acto seguido recomendaba esperar. Como si su mano izquierda no supiera lo que hacía la derecha.
Ahora piensa en algo
Cuando vas a urgencias con un dolor en el pecho, el médico que te atiende no solo mira vuestras constantes. Mira la cara. El color de la piel. Respiración. Si estás sudando frío. Si se te ha caído el alma a los pies o si estás tranquilo.
Hay un concepto en medicina que los franceses llaman coup d’œil clinique (el ojo clínico) que es esa capacidad de un médico experimentado de evaluar la gravedad de un vistazo, integrando cosas que ni siquiera sabría explicar con palabras. Décadas de experiencia comprimidas en una sensación.
Jerome Groopman, médico de Harvard, cuenta en su libro Cómo piensan los médicos el caso de una mujer que fue diagnosticada erróneamente con anorexia durante 15 años por 30 médicos distintos. Todos pasaban la etiqueta de uno a otro sin cuestionarla.
Hasta que un especialista tuvo la intuición de que algo no encajaba y le hizo las pruebas correctas. Resultado: enfermedad celíaca, completamente tratable.
Un algoritmo no tiene intuición. Procesa datos. Y cuando los datos son ambiguos (un paciente de verdad llega a urgencias, no con un caso de libro sino con una mezcla confusa de síntomas), el algoritmo se pierde.
Pero hay otro hallazgo del estudio que me puso los pelos de punta
Los investigadores probaron qué pasaba cuando, en la conversación con ChatGPT Health, un familiar o amigo del paciente minimizaba los síntomas. Algo tan humano como:
Venga, no es para tanto, seguro que se te pasa
Cuando eso ocurría, la probabilidad de que la IA subestimara la gravedad se multiplicaba por casi 12. Doce veces más probable de mandarte a casa cuando deberías estar en urgencias, solo porque alguien en la conversación dijo
no será nada
Esto tiene un nombre técnico: sesgo de anclaje. Es cuando te agarras a la primera información que recibes y todo lo demás lo interpretas a partir de ahí. A los médicos nos lo enseñan en la carrera como uno de los errores cognitivos más peligrosos. Y resulta que la IA lo comete de manera espectacular.
¿Y sabes qué es lo que más me preocupa? Que precisamente las personas que más usan estas herramientas son las que no tienen acceso fácil a un médico. Gente en zonas rurales, gente sin seguro médico en países sin sanidad pública, gente joven que “para qué voy a ir al médico si me lo puede decir el móvil”. La IA falla más donde más se necesita que acierte.
Pero es la primera versión, ya mejorará
Déjame que te cuente algo que la mayoría de la gente no sabe: esta película ya la hemos visto. Varias veces.
En 1972, un equipo de Stanford creó MYCIN, un programa de ordenador que diagnosticaba infecciones bacterianas y recomendaba antibióticos. Tenía 600 reglas y, en pruebas formales, acertaba tanto o más que los propios profesores de Stanford. Los titulares de la época decían lo mismo que los de ahora:
Los ordenadores sustituirán a los médicos
MYCIN nunca se usó con un solo paciente real. Problemas legales, rechazo de los médicos, limitaciones técnicas.
En los años 70 y 80, la Universidad de Pittsburgh desarrolló INTERNIST-1, un sistema que cubría 500 enfermedades. Su creador, Jack Myers, era un médico legendario. Intentaron meter su cerebro en una máquina. Después de 15 años de trabajo, el sistema tardaba entre 30 y 90 minutos por consulta. Nunca salió del laboratorio.
Pero el caso más espectacular (y el más vergonzoso) es el de IBM Watson. En 2011, Watson ganó Jeopardy! en televisión contra los mejores concursantes humanos. IBM invirtió unos 4.000 millones de dólares con la promesa de “erradicar el cáncer”. Se asociaron con el MD Anderson Cancer Center, uno de los mejores centros oncológicos del mundo.
El presupuesto original era de 2,4 millones. Gastaron 62 millones sin producir un producto funcional. ¿El motivo? Watson fue entrenado con casos inventados por ingenieros, no con datos de pacientes reales. Solo uno o dos médicos entrenaron cada módulo.
Y aquí viene lo peor: en sus pruebas, Watson recomendó bevacizumab (un fármaco contra el cáncer) para un paciente con cáncer de pulmón que tenía sangrado severo.
Ese fármaco lleva una advertencia de caja negra de la FDA (el nivel de alerta máximo) diciendo que NO se use en pacientes con hemorragia. Es como recetar aspirina a alguien que se está desangrando.
Un médico del Jupiter Hospital de Florida lo describió con una elocuencia que no puedo reproducir aquí pero que empezaba por “es una mier-”. En 2022, IBM vendió Watson Health por una fracción de lo que invirtió.
¿Te suena el patrón? Promesa enorme, titulares espectaculares, y luego… la realidad.
Edward Shortliffe, el propio creador de MYCIN, escribió algo en 2019 que parece profético: el entusiasmo actual por la IA médica es
a la vez refrescante y aterrador.
Responsabilidad
Y llegamos a la segunda razón por la que la IA no va a sustituir a tu médico, y esta es la que nadie quiere mirar de frente: ¿quién se hace responsable cuando la IA se equivoca?
Porque si un médico la fastidia, hay un sistema (imperfecto, lento, mejorable, pero real) para pedir cuentas. Hay un colegiado con nombre y apellidos. Hay una historia clínica. Hay un seguro de responsabilidad civil. Hay tribunales.
¿Y si ChatGPT te dice que tu dolor de pecho es ansiedad y resulta que es un infarto?OpenAI incluye en sus términos de servicio algo que básicamente dice:
esto no es consejo médico, es solo información, consulte a su médico
¿Sabes cuánta gente lee los términos de servicio? Exacto. Nadie. Pero esa frasecita tiene un efecto legal muy concreto: les permite esquivar la clasificación como dispositivo médico por la FDA.
Es decir, no tienen que cumplir los estándares de seguridad que sí se exigen a cualquier aparato que se use en un hospital.
La trampa es elegante:
no somos un producto médico, somos solo información...
pero 230 millones de personas nos usan cada semana para tomar decisiones médicas. Es como si un bar pusiera un cartel que dice “esto no es un bar, es un espacio de hidratación alternativa” para esquivar la licencia de hostelería.
La Unión Europea, hay que decirlo, ha sido más lista.
Su nueva normativa de IA clasifica los sistemas de inteligencia artificial en salud como alto riesgo, exigiendo transparencia, supervisión humana y responsabilidad objetiva. Es decir, si el producto falla, la empresa responde sin que tengas que demostrar que hubo negligencia. ChatGPT Health, curiosamente, no está disponible en la UE. Coincidencia, ¿verdad?
Mientras tanto, la organización independiente de seguridad del paciente ECRI ha clasificado el mal uso de chatbots de IA como el riesgo tecnológico número uno en salud para 2026.
Su presidente, Marcus Schabacker, lo dijo clarito:
La medicina es un esfuerzo fundamentalmente humano. Los chatbots son herramientas poderosas, pero los algoritmos no pueden reemplazar la educación y la experiencia de los profesionales médicos.
Y ahora la pregunta del millón: ¿significa esto que la IA es inútil en medicina?
No. Para nada.
La IA es una herramienta extraordinaria. Puede analizar miles de radiografías en minutos buscando patrones que a un radiólogo le llevaría horas. Puede cribar datos de ensayos clínicos, ayudar en la investigación, automatizar tareas administrativas que nos roban un tercio de la jornada a los médicos. Puede ser un copiloto brutal.
Pero un copiloto no es un piloto.
El problema no es la IA. El problema es la narrativa de sustitución.
La idea de que un chatbot entrenado con textos de internet puede reemplazar el juicio de una persona que ha pasado seis años de carrera, más la especialidad, más miles de guardias, más esa cosa intangible que es la experiencia de haber mirado a los ojos a un paciente.
Larrey clasificaba heridos en un campo de batalla con balas silbando sobre su cabeza, con barro hasta las rodillas, a la luz de antorchas, con los gritos de los moribundos de fondo. Y acertaba. No porque tuviera un algoritmo, sino porque tenía algo que ninguna máquina ha replicado todavía: la capacidad de mirar a un ser humano y entender qué necesita.
Eso no es romanticismo. Es biología. Es experiencia. Es lo que nos diferencia.
Resumen
La próxima vez que alguien te diga que la IA va a sustituir a los médicos, puedes contestarle tres cosas:
Primera: el mayor estudio independiente hasta la fecha muestra que ChatGPT Health falla en 1 de cada 3 triajes y subestima la mitad de las emergencias reales. Si tu médico fallara la mitad de las veces, lo inhabilitarían.
Segunda: cuando la IA se equivoca, no hay nadie que responda. No hay un seguro que te cubra, no hay un ser humano que dé la cara. Y eso, en medicina, no es un detalle menor: es lo que separa un sistema sanitario de un casino.
Tercera: llevamos más de 50 años escuchando que las máquinas van a sustituir a los médicos. Desde MYCIN en los 70 hasta Watson en los 2010. Cada generación de IA promete lo mismo. Y cada vez la realidad nos recuerda que la medicina, como decía Hipócrates, es el más noble de los oficios. Porque no trata con datos. Trata con personas.
Y las personas somos gloriosamente complicadas.
Fuentes
Estudio principal
ChatGPT Health performance in a structured test of triage recommendations https://www.nature.com/articles/s41591-026-04297-7
ChatGPT Health: First independent evaluation raises safety questions https://medicalxpress.com/news/2026-02-chatgpt-health-independent-safety.html
MYCIN (1972-1979 - Stanford)
MYCIN, an early expert system, or artificial intelligence (AI) program, for treating blood infections https://www.britannica.com/technology/MYCIN
History of AI in Medicine: From MYCIN to Foundation Models https://physicianaihandbook.com/foundations/history.html
MYCIN: the beginning of artificial intelligence in medicine https://telefonicatech.com/en/blog/mycin-the-beginning-of-artificial-intelligence-in-medicine
A (brief) history and development of AI in medicine https://www.esanum.com/today/posts/a-brief-history-and-development-of-ai-in-medicine
IBM Watson Health
IBM’s Watson gave ‘unsafe and incorrect’ cancer treatment advice https://www.healthcaredive.com/news/stat-ibms-watson-gave-unsafe-and-incorrect-cancer-treatment-advice/528666/
IBM pitched its Watson supercomputer as a revolution in cancer care. It’s nowhere closehttps://www.statnews.com/2017/09/05/watson-ibm-cancer/
Case Study: The $4 Billion AI Failure of IBM Watson for Oncology https://www.henricodolfing.com/2024/12/case-study-ibm-watson-for-oncology-failure.html
ECRI. Riesgo tecnologico número uno para 2026
Misuse of AI chatbots tops annual list of health technology hazards https://home.ecri.org/blogs/ecri-news/misuse-of-ai-chatbots-tops-annual-list-of-health-technology-hazards
ECRI flags misuse of AI chatbots as a top health tech hazard in 2026 https://www.fiercehealthcare.com/health-tech/ecri-flags-misuse-ai-chatbots-top-health-tech-hazard-2026
Historia del triaje
Larrey DJ. Memoirs of Military Surgery, and Campaigns of the French Armies. Joseph Cushing, 1814.
Skandalakis PN, Lainas P, Zoras O, Skandalakis JE, Mirilas P. “To afford the wounded speedy assistance”: Dominique Jean Larrey and Napoleon. World J Surg 2006;30:1392-1399.



Muy buen artículo. Genial.
No tenemos ni las más remota idea de dónde va a estar esta tecnología en 5 años. Creo que ya lo sabremos cuando lleguemos, lo demás es especulación (la que agiganta y la que minimiza).