La IA todavía suspende como médico: por qué GPT-5 y Gemini no pueden sustituir al razonamiento humano

Compartir esto:

MADRID, 15 Abr. (Agencias) –

La promesa de una inteligencia artificial capaz de diagnosticar enfermedades mejor que un médico acaba de chocar con la realidad de los hospitales. Aunque los modelos de IA más avanzados, como GPT-5 o Grok 4, son capaces de acertar un diagnóstico final cuando tienen todos los datos sobre la mesa, siguen siendo incapaces de «pensar» como un doctor.

EL FALLO EN EL «DIAGNÓSTICO DIFERENCIAL»

A pesar del creciente uso de la inteligencia artificial (IA) en la atención médica, un nuevo estudio dirigido por investigadores del Mass General Brigham de la MESH Incubator (Estados Unidos) muestra que los modelos generativos de IA siguen sin alcanzar sus capacidades de razonamiento clínico, según los resultados publicados en ‘JAMA Network Open’.

Al pedir a 21 modelos de lenguaje grandes (LLM) diferentes que actuaran como médicos en una serie de escenarios clínicos, los investigadores demostraron que los LLM a menudo fallan al navegar por los procesos de diagnóstico y al elaborar una lista comprobable de diagnósticos potenciales o «diferenciales».

Aunque todos los LLM probados llegaron a un diagnóstico final correcto en más del 90% de los casos cuando se les proporcionó toda la información pertinente en un caso de paciente, su desempeño fue consistentemente deficiente en los pasos iniciales del proceso de diagnóstico, basados en el razonamiento.

«A pesar de las continuas mejoras, los modelos de lenguaje a gran escala disponibles comercialmente no están listos para su implementación clínica sin supervisión», plantea el autor principal, el doctor Marc Succi, director ejecutivo de la Incubadora MESH en el Hospital General de Massachusetts Brigham.

«Los diagnósticos diferenciales son fundamentales para el razonamiento clínico y constituyen la base del ‘arte de la medicina’, algo que la IA no puede replicar actualmente. La promesa de la IA en la medicina clínica reside en su potencial para complementar, no para reemplazar, el razonamiento médico, siempre que se disponga de todos los datos relevantes, lo cual no siempre ocurre».

GPT-5 Y GROK 4 A LA CABEZA, PERO LEJOS DEL APROBADO CLÍNICO

Esta nueva investigación es una continuación de un trabajo anterior dirigido por el grupo MESH de Succi, en el que los investigadores evaluaron la capacidad de ChatGPT 3.5 para diagnosticar con precisión una serie de casos clínicos.

En el nuevo estudio, los investigadores desarrollaron una medida novedosa y más integral de los modelos de aprendizaje lógico (MLL) que va más allá de la precisión, denominada PrIME-LLM, la cual evalúa la competencia de un modelo en diferentes etapas del razonamiento clínico: la formulación de posibles diagnósticos, la realización de pruebas adecuadas, la emisión de un diagnóstico final y la gestión del tratamiento.

Cuando los modelos se desempeñan bien en un área, pero mal en otra, este desequilibrio se refleja en la puntuación de PrIME-LLM, en lugar de promediar la competencia en todas las tareas, lo que podría enmascarar las áreas de debilidad, según los investigadores.

El estudio comparó 21 modelos de lógica difusa (LLM) de propósito general, incluyendo los modelos más recientes de ChatGPT, DeepSeek, Claude, Gemini y Grok al momento de su presentación. Los investigadores evaluaron la capacidad de los modelos para procesar 29 casos clínicos publicados. Para simular el desarrollo de los casos clínicos, los investigadores alimentaron gradualmente la información a los modelos, comenzando con datos básicos como la edad, el sexo y los síntomas del paciente, antes de agregar los hallazgos del examen físico y los resultados de laboratorio.

El desempeño de los LLM en cada etapa fue evaluado por estudiantes de medicina, y estas evaluaciones se utilizaron para calcular las puntuaciones generales de PRIME-LLM de los modelos.

En consonancia con su estudio anterior, los investigadores descubrieron que los modelos de lógica difusa (LLM) eran eficaces para generar diagnósticos finales precisos. Sin embargo, ninguno de los modelos logró generar un diagnóstico diferencial adecuado en más del 80% de los casos. En la práctica clínica, un diagnóstico diferencial es fundamental, pero en este estudio, se proporcionó a los modelos información adicional para que pudieran avanzar a la siguiente etapa del proceso clínico incluso si fallaban en el diagnóstico diferencial.

«Al evaluar los modelos de lógica difusa de forma gradual, dejamos de tratarlos como meros examinadores y los colocamos en la posición de un médico. Estos modelos son excelentes para llegar a un diagnóstico final una vez que se dispone de todos los datos, pero tienen dificultades al inicio de un caso, cuando no hay mucha información», expone Arya Rao, autora principal, investigadora del proyecto MESH y estudiante de doctorado en medicina en la Facultad de Medicina de Harvard.

La mayoría de los modelos LLM mostraron una mayor precisión al proporcionarles resultados de laboratorio e imágenes, además del texto. Los modelos lanzados más recientemente generalmente superaron a los modelos más antiguos, lo que demuestra que los LLM están mejorando progresivamente. Las puntuaciones PRIME-LLM de los modelos oscilaron entre el 64% para Gemini 1.5 Flash y el 78% para Grok 4 y GPT-5.

Según Succi, PRIME-LLM representa una forma estandarizada de evaluar la competencia clínica de la IA que podría ser utilizada por los desarrolladores de IA y los líderes hospitalarios para comparar las nuevas tecnologías a medida que se lanzan.

«Queremos ayudar a distinguir la realidad de la exageración en lo que respecta a estas herramientas en el ámbito de la atención médica. Nuestros resultados refuerzan la idea de que los modelos de lenguaje complejos en el sector sanitario siguen requiriendo la intervención humana y una supervisión muy rigurosa», finalizan los autores.

CL11

La IA todavía suspende como médico: por qué GPT-5 y Gemini no pueden sustituir al razonamiento humano

GPT-5 Y GROK 4 A LA CABEZA, PERO LEJOS DEL APROBADO CLÍNICO

Morgan Rogers firma con el Chelsea FC hasta 2033

Sánchez mantiene una «magnífica conversación» con el nuevo primer ministro británico: «Compartimos valores y objetivos»

El ICAM alerta de que la Justicia digital sigue lastrada por fallos que comprometen el derecho de defensa

Casa Asia entrega sus premios institucionales 2026 en Barcelona

Carlos Alcaraz ya aparece en la lista de participantes del US Open

El Gobierno responde a Andalucía y Extremadura que el Plan de Vivienda no supone invasión de competencias

Mónica García dice que en el caso Zapatero se necesitan «pruebas» y no «un juicio paralelo» y «social»

Entidades culturales y políticos catalanes destacan el «legado» de Josep Vallverdú

Nace «El Susurro», una nueva plataforma para conciertos en streaming

Casa Asia entrega sus premios institucionales 2026 en Barcelona

García Egea, convencido de que Sánchez «engañará» a Arrimadas y «al final acabará defraudada» por darle apoyo

El PP acusa a Iglesias de sacar la suite de Ayuso en el Congreso para «desviar el debate» de su «incompetente» gestión

Caballero (FEMP) exige «no segregar» a catalanes o madrileños y que sean bienvenidos en las playas

Sánchez mantiene una «magnífica conversación» con el nuevo primer ministro británico: «Compartimos valores y objetivos»

Mónica García dice que en el caso Zapatero se necesitan «pruebas» y no «un juicio paralelo» y «social»

Albares felicita a Miliband por su nombramiento y afirma que cooperarán para «impulsar la prosperidad compartida»

Puigdemont, Comín y Puig denuncian a España a la Comisión Europea por incumplimiento de la amnistía

Óscar López tacha de «lamentable» la agresión en Pamplona en la final del Mundial y critica el «auge» del «extremismo»

López defiende el «comportamiento intachable» de Zapatero y emplaza a conocer su versión en el ‘caso Plus Ultra’

Panamá llama a consultas a su embajador en Nicaragua tras las palabras de Ortega sobre las elecciones

Trump ordena reanudar los vuelos directos entre EEUU y Líbano

Zelenski destituye al comandante en jefe de las Fuerzas Armadas tras el cese del ministro de Defensa

El secretario general de Hezbolá felicita al nuevo líder del brazo político de Hamás por su nombramiento

Cuba tacha de «panfleto» un informe sobre espionaje cubano y dice que busca «asustar» a la población de EEUU

La Fiscalía británica detalla que Ann Widdecombe fue golpeada 21 veces en la cabeza con un martillo hasta morir

Casa Asia entrega sus premios institucionales 2026 en Barcelona

Carlos Alcaraz ya aparece en la lista de participantes del US Open

El Gobierno responde a Andalucía y Extremadura que el Plan de Vivienda no supone invasión de competencias

Mónica García dice que en el caso Zapatero se necesitan «pruebas» y no «un juicio paralelo» y «social»

Entidades culturales y políticos catalanes destacan el «legado» de Josep Vallverdú

Diario Día

CoverNews Social

Entradas recientes

GPT-5 Y GROK 4 A LA CABEZA, PERO LEJOS DEL APROBADO CLÍNICO

Más historias

Te pueden interesar

Diario Día

CoverNews Social

Entradas recientes

Etiquetas