IA en Medicina: ¿Son ‘ChatGPT’ y ‘Gemini’ fiables para tu salud?

MADRID, 19 Jun. (Agencias) –
Un estudio internacional, con participación de la Universidad Rey Juan Carlos (URJC) de Madrid y del madrileño Hospital Universitario de Henares, en Coslada, ha concluido que el uso de la Inteligencia Artificial (IA) para ampliar información médica «es útil«, aunque «su fiabilidad es variable y siempre debe contrastarse con un profesional sanitario».
Según ha indicado el citado centro académico, este trabajo, desarrollado también por investigadores de los británicos King’s College y Universidad Solent de Londres, y publicado en la revista especializada ‘Artificial Intelligence in Medicine’, «ha evaluado cómo responden ‘ChatGPT’ o ‘Gemini’ a las preguntas de los ciudadanos sobre temas como la epidural».
Así, ha constatado que «para responder a este tipo de preguntas, el modelo con mejor rendimiento global sería ‘ChatGPT’, seguido de ‘Gemini'», ha señalado la URJC, que ha añadido que, «no obstante, la calidad de estos modelos depende de la métrica evaluada». «Pese a que ‘ChatGPT’ es el que demuestra mejores datos, dos modelos medianos, ‘OpenChat’ y ‘Phi-3’, consiguen resultados comparables, mejorando significativamente otros modelos de gran tamaño», ha sostenido la investigadora principal de este estudio, Marina del Barrio.
A juicio de esta última, ello «destaca la importancia de los datos con los que se entrenan frente al tamaño del modelo». Al respecto, esta universidad española ha apuntado que la investigación «también se ha centrado en distinguir entre las respuestas que pueden ser confiables de aquéllas que pueden confundir a los pacientes y, potencialmente, alterar su toma de decisiones».
«La dificultad de las preguntas también afecta a la calidad de las respuestas, siendo las más complejas o controvertidas las que obtienen peores resultados», ha continuado, para añadir que «esto hace que los modelos sean menos fiables al responder preguntas sensibles». «Para recabar toda la información, el equipo científico estableció 10 preguntas para planteárselas a los diferentes modelos de lenguaje, cada una reformulada de distintas maneras», ha explicado.
COMPROBAR LA HABILIDAD DE LOS MODELOS
«Para ello, nos basamos tanto en la literatura como en la práctica clínica y todas las preguntas fueron reformuladas tanto en español como en inglés», ha declarado, por su parte, Del Barrio, quien ha añadido que «el objetivo de esto era comprobar la habilidad de estos modelos para entender y responder a diferentes formulaciones». Todo ello «siempre con enunciados sencillos, como los que podría escribir una paciente en su casa sin conocimientos previos de IA», ha aclarado.
Tras ello, y según la URJC, se seleccionaron los modelos a evaluar, como ‘ChatGPT’, ‘Gemini’, ‘OpenChat’ o las versiones ‘Phi-2’ y ‘Phi-3’, «y modelos médicos especializados como ‘MedLlama’ y ‘Meditron'». «Las métricas para realizar la evaluación se centraron en la tangibilidad, fiabilidad, sensibilidad, seguridad, empatía, comprensibilidad y concordancia con el experto», ha afirmado, para agregar que «las más de 2.400 respuestas fueron consensuadas y revisadas de manera manual con dos expertos para establecer cuáles eran aceptables».
«Los hallazgos de este estudio abren la puerta a desarrollar sistemas de IA más eficientes y útiles en Medicina, que sirvan de apoyo a profesionales y pacientes, siempre bajo supervisión médica», ha resumido este centro académico, que ha concluido afirmando que «los resultados cuestionan la idea de que los modelos más grandes son siempre mejores y apuntan a que el entrenamiento y los datos influyen más que el tamaño».
CL11
