15 abril 2026

La IA todavía suspende como médico: por qué GPT-5 y Gemini no pueden sustituir al razonamiento humano

La IA todavía suspende como médico: por qué GPT-5 y Gemini no pueden sustituir al razonamiento humano
Compartir esto:

   MADRID, 15 Abr. (Agencias) –

La promesa de una inteligencia artificial capaz de diagnosticar enfermedades mejor que un médico acaba de chocar con la realidad de los hospitales. Aunque los modelos de IA más avanzados, como GPT-5 o Grok 4, son capaces de acertar un diagnóstico final cuando tienen todos los datos sobre la mesa, siguen siendo incapaces de «pensar» como un doctor.

EL FALLO EN EL «DIAGNÓSTICO DIFERENCIAL»

   A pesar del creciente uso de la inteligencia artificial (IA) en la atención médica, un nuevo estudio dirigido por investigadores del Mass General Brigham de la MESH Incubator (Estados Unidos) muestra que los modelos generativos de IA siguen sin alcanzar sus capacidades de razonamiento clínico, según los resultados publicados en ‘JAMA Network Open’.

   Al pedir a 21 modelos de lenguaje grandes (LLM) diferentes que actuaran como médicos en una serie de escenarios clínicos, los investigadores demostraron que los LLM a menudo fallan al navegar por los procesos de diagnóstico y al elaborar una lista comprobable de diagnósticos potenciales o «diferenciales».

Aunque todos los LLM probados llegaron a un diagnóstico final correcto en más del 90% de los casos cuando se les proporcionó toda la información pertinente en un caso de paciente, su desempeño fue consistentemente deficiente en los pasos iniciales del proceso de diagnóstico, basados en el razonamiento.

   «A pesar de las continuas mejoras, los modelos de lenguaje a gran escala disponibles comercialmente no están listos para su implementación clínica sin supervisión», plantea el autor principal, el doctor Marc Succi, director ejecutivo de la Incubadora MESH en el Hospital General de Massachusetts Brigham.

«Los diagnósticos diferenciales son fundamentales para el razonamiento clínico y constituyen la base del ‘arte de la medicina’, algo que la IA no puede replicar actualmente. La promesa de la IA en la medicina clínica reside en su potencial para complementar, no para reemplazar, el razonamiento médico, siempre que se disponga de todos los datos relevantes, lo cual no siempre ocurre».

GPT-5 Y GROK 4 A LA CABEZA, PERO LEJOS DEL APROBADO CLÍNICO

   Esta nueva investigación es una continuación de un trabajo anterior dirigido por el grupo MESH de Succi, en el que los investigadores evaluaron la capacidad de ChatGPT 3.5 para diagnosticar con precisión una serie de casos clínicos.

   En el nuevo estudio, los investigadores desarrollaron una medida novedosa y más integral de los modelos de aprendizaje lógico (MLL) que va más allá de la precisión, denominada PrIME-LLM, la cual evalúa la competencia de un modelo en diferentes etapas del razonamiento clínico: la formulación de posibles diagnósticos, la realización de pruebas adecuadas, la emisión de un diagnóstico final y la gestión del tratamiento.

Cuando los modelos se desempeñan bien en un área, pero mal en otra, este desequilibrio se refleja en la puntuación de PrIME-LLM, en lugar de promediar la competencia en todas las tareas, lo que podría enmascarar las áreas de debilidad, según los investigadores.

   El estudio comparó 21 modelos de lógica difusa (LLM) de propósito general, incluyendo los modelos más recientes de ChatGPT, DeepSeek, Claude, Gemini y Grok al momento de su presentación. Los investigadores evaluaron la capacidad de los modelos para procesar 29 casos clínicos publicados. Para simular el desarrollo de los casos clínicos, los investigadores alimentaron gradualmente la información a los modelos, comenzando con datos básicos como la edad, el sexo y los síntomas del paciente, antes de agregar los hallazgos del examen físico y los resultados de laboratorio.

El desempeño de los LLM en cada etapa fue evaluado por estudiantes de medicina, y estas evaluaciones se utilizaron para calcular las puntuaciones generales de PRIME-LLM de los modelos.

   En consonancia con su estudio anterior, los investigadores descubrieron que los modelos de lógica difusa (LLM) eran eficaces para generar diagnósticos finales precisos. Sin embargo, ninguno de los modelos logró generar un diagnóstico diferencial adecuado en más del 80% de los casos. En la práctica clínica, un diagnóstico diferencial es fundamental, pero en este estudio, se proporcionó a los modelos información adicional para que pudieran avanzar a la siguiente etapa del proceso clínico incluso si fallaban en el diagnóstico diferencial.

   «Al evaluar los modelos de lógica difusa de forma gradual, dejamos de tratarlos como meros examinadores y los colocamos en la posición de un médico. Estos modelos son excelentes para llegar a un diagnóstico final una vez que se dispone de todos los datos, pero tienen dificultades al inicio de un caso, cuando no hay mucha información», expone Arya Rao, autora principal, investigadora del proyecto MESH y estudiante de doctorado en medicina en la Facultad de Medicina de Harvard.

   La mayoría de los modelos LLM mostraron una mayor precisión al proporcionarles resultados de laboratorio e imágenes, además del texto. Los modelos lanzados más recientemente generalmente superaron a los modelos más antiguos, lo que demuestra que los LLM están mejorando progresivamente. Las puntuaciones PRIME-LLM de los modelos oscilaron entre el 64% para Gemini 1.5 Flash y el 78% para Grok 4 y GPT-5.

   Según Succi, PRIME-LLM representa una forma estandarizada de evaluar la competencia clínica de la IA que podría ser utilizada por los desarrolladores de IA y los líderes hospitalarios para comparar las nuevas tecnologías a medida que se lanzan.

   «Queremos ayudar a distinguir la realidad de la exageración en lo que respecta a estas herramientas en el ámbito de la atención médica. Nuestros resultados refuerzan la idea de que los modelos de lenguaje complejos en el sector sanitario siguen requiriendo la intervención humana y una supervisión muy rigurosa», finalizan los autores.

CL11