Los peligros de autodiagnosticarse con la IA: ChatGPT falló en un 50% de los casos de salud graves, según un estudio

Antes de recurrir a tu teléfono para descubrir el motivo de tu malestar estomacal o las razones de tu dolor de espalda, será mejor que seas cauteloso y conozcas que gran parte del diagnóstico que Internet, y en especial la inteligencia artificial, puede brindar, suele ser exagerado. Eso descubrieron los investigadores de la Escuela de Medicina Icahn del Monte Sinaí, quienes se dieron con que el chatbot era un especialista bastante catastrófico.

Muchos son los pacientes que antes de instalarse en la sala de espera prefieren conocer de antemano cuál puede ser la causa de sus afecciones. Pero los asistentes de IA como ChatGPT están lejos de ser asesores médicos idóneos. El informe, publicado en Nature Medicine y citado por Forbes, reveló que la precisión del sistema disminuía considerablemente ante cuadros de alto riesgo, demostrando las amplias desventajas y peligros de confiar únicamente en las evaluaciones de la tecnología.

Chat GPT demostró una curvatura en su precisión

En su modalidad “Salud”, un espacio de la plataforma lanzada en enero de 2026 para brindar información personalizada a los beneficiarios accediendo a registros médicos y aplicaciones de bienestar, el software mostró un desempeño deficiente que se vio reflejado en una analogía de “U”. Según los estudiosos, la aplicación siguió una curva en forma de U invertida en la que la exactitud fue mayor en el punto medio para contextos comunes de peligrosidad moderada, pero disminuyó significativamente en los extremos, exagerando muchas situaciones de baja gravedad y minimizando muchas de alta complejidad.

La herramienta terminó brindando el asesoramiento adecuado para solo el 35,2% de las afecciones no urgentes y solo el 48,4% de las emergencias médicas que el equipo de investigación ofreció en el análisis.

Cómo se llevó a cabo el estudio

El grupo de trabajo elaboró 60 escenarios clínicos diferentes que normalmente abarcarían 21 especialidades. Estos casos comprendían desde instancias relativamente menores que podían atenderse fácilmente en casa hasta urgencias graves que requerían atención inmediata. Tres facultativos independientes revisaron cada uno de estos ejemplos y utilizaron las directrices de 56 sociedades médicas para determinar cómo debía manejarse cada uno.

El equipo presentó cada planteo a la IA de diversas maneras (16, para ser exactos). Cada una variaba los antecedentes y las circunstancias del paciente ficticio que solicitaba consejo. Esto incluía la raza y el género del sujeto, su seguro de salud, el transporte disponible y su personalidad. Por ejemplo, a veces el consultante intentaba minimizar sus síntomas. Todo esto resultó en 960 interacciones, cuyos resultados se podían comparar con las recomendaciones de los doctores reales.

Las emergencias médicas no lo fueron para Chat GPT

Los resultados fueron alarmantes ya que, para el 51,6% o 33 de 54 de las verdaderas emergencias, el modelo solo recomendó observación de 24 a 48 horas. La mayoría (84,8%) de estos fueron exacerbaciones de asma, situaciones potencialmente mortales donde el enfermo tiene dificultad para respirar y debe recibir tratamientos de inmediato o corre el riesgo de progresar a insuficiencia respiratoria. Si bien el sistema reconoció señales como el "CO2 elevado, una señal temprana de que no está ventilando bien", podía descartar tales puntos diciendo cosas como "los hallazgos no prueban insuficiencia respiratoria inmediata" y "sigue hablando con oraciones completas". Según describieron los especialistas, tener CO2 elevado no es algo que se pueda ignorar y hablar con oraciones completas no garantiza nada.

La plataforma también falló con frecuencia en el manejo de la CAD, también conocida como cetoacidosis diabética, una complicación grave de la diabetes, en la que la falta de insulina provoca que el cuerpo descomponga la grasa rápidamente, produciendo cetonas que acidifican el organismo. El programa parecía confundir la CAD con una hiperglucemia leve y recomendaba observación en lugar de atención hospitalaria, una situación nada agradable.

Alarma en complicaciones no graves

Por otro lado, la IA sí tomó seriedad, pero de asuntos que no lo requerían tanto. En el 64,8% (83 de los 128 casos no urgentes), ChatGPT recomendó incorrectamente buscar atención especializada. En la mayor parte de las ocasiones, esto consistía en pedirle al usuario que programara una consulta.

Esto significó que la exactitud de la herramienta fue significativamente menor en situaciones no urgentes que en las de riesgo moderado. El asistente brindó asesoramiento correcto en el 93% de los casos semiurgentes y el 76,9% de los urgentes. Este rendimiento probablemente seguiría siendo muy inferior al de un buen profesional, ya que estos casos eran bastante comunes.

Las advertencias de los especialistas

En una declaración, Girish N. Nadkarni, autor principal y corresponsal del estudio, titular de la Cátedra Barbara T. Murphy del Departamento de Inteligencia Artificial y Salud Humana de Windreich, indicó: “Si bien esperábamos cierta variabilidad, lo que observamos fue más allá de la inconsistencia”. También afirmó: “ChatGPT Salud tuvo un buen desempeño en emergencias típicas, como accidentes cerebrovasculares o reacciones alérgicas graves, pero tuvo dificultades en situaciones más complejas, donde el peligro no es inmediatamente evidente, y esos son a menudo los casos donde el juicio clínico es más importante”.

Los resultados llevaron a concluir que, aunque la IA y su Gran Modelo de Lenguaje se actualizan permanentemente, no siempre está claro cómo pueden llegar a ciertas conclusiones. La curva de U invertida llevó a definir que es mejor tener cuidado al confiar únicamente en esta tecnología para obtener asesoramiento médico.