La UNED desarrolla un sistema que traduce textos médicos al lenguaje estandarizado de la sanidad

La UNED desarrolla un sistema que traduce textos médicos al lenguaje estandarizado de la sanidad
Compartir esto:

MADRID 21 May. Diario Dia –

La UNED ha participado en el desarrollo de un sistema de inteligencia artificial capaz de transformar automáticamente informes médicos en códigos clínicos estandarizados, un proceso clave para organizar la información sanitaria y facilitar su análisis e investigación.

Según informa la universidad, el trabajo presenta una arquitectura capaz de transformar automáticamente textos médicos en códigos de la Clasificación Internacional de Enfermedades (CIE) mediante un proceso organizado en tres fases: reconocimiento de entidades, clasificación supervisada y análisis de similitud semántica. Evaluado en corpus en español e inglés, el sistema ha mostrado resultados competitivos y una mejora media del 3’42% en la métrica F1 respecto a métodos previos.

La codificación clínica permite convertir la información contenida en los informes médicos -diagnósticos, síntomas, procedimientos o antecedentes- en un lenguaje común basado en códigos estandarizados. Gracias a ello, profesionales de distintos centros pueden registrar y consultar la información de forma homogénea, facilitando tanto la gestión sanitaria como el análisis posterior de grandes volúmenes de datos.

Sin embargo, los expertos señalan que este proceso sigue realizándose en gran medida de forma manual, lo que implica una elevada inversión de tiempo y recursos. «Los sistemas que automaticen el proceso aportan mucho valor, ya que convierten una tarea muy tediosa y de muchas horas en un proceso rápido y eficiente, que a su vez permite dedicar más tiempo a investigar y analizar la información», explica Alicia Ramírez, investigadora del grupo NLP&IR del Departamento de Lenguajes y Sistemas Informáticos de la UNED y que ha participado en el desarrollo del sistema.

La propuesta incorpora además dos avances. Por un lado, incluye una fase no supervisada que permite identificar códigos que el sistema no había visto previamente durante el entrenamiento, ampliando su capacidad para trabajar en entornos reales. Por otro, es capaz de interpretar referencias complejas dentro del texto médico, como menciones superpuestas o fragmentadas que deben entenderse conjuntamente para identificar el código correcto.

UNA IA QUE EXPLICA SUS DECISIONES

Uno de los aspectos más innovadores del trabajo es que el sistema no funciona como una caja negra. Además de generar una propuesta de codificación, señala qué fragmentos concretos del informe médico justifican cada resultado. «El sistema presentado, además de predecir los códigos CIE-10, devuelve las partes del texto que justifican dichas predicciones», indica la investigadora. Gracias a ello, los profesionales sanitarios pueden comprender por qué se ha asignado un determinado código y validar el resultado de una forma más rápida y transparente.

Para comprobar su rendimiento, el sistema se evaluó utilizando corpus en español e inglés. Aunque los modelos se entrenaron de forma independiente para cada conjunto de datos, el objetivo era demostrar que la metodología mantiene su eficacia en contextos distintos y no depende de un único tipo de información clínica.

Según Ramírez, la mejora obtenida -un 3’42% en F1- adquiere especial relevancia en una tarea particularmente exigente desde el punto de vista computacional. Como recuerda la investigadora, la codificación clínica automática trabaja con lenguaje médico especializado y con más de 100.000 códigos posibles, por lo que avances aparentemente pequeños tienen un impacto significativo sobre la precisión y la cobertura del sistema.

El siguiente paso de la investigación será desarrollar una demo funcional que permita introducir textos clínicos y visualizar automáticamente tanto los códigos detectados como los fragmentos que justifican cada decisión. Si los resultados son positivos, esta línea de trabajo podría facilitar futuras aplicaciones en entornos clínicos o de investigación.

El trabajo se ha desarrollado con el respaldo de la infraestructura de la UNED y del conocimiento especializado del grupo NLP&IR en procesamiento del lenguaje natural aplicado al ámbito biomédico, una línea de investigación consolidada dentro del Departamento de Lenguajes y Sistemas Informáticos.

CL11