Dissertação

{en_GB=Deep neural models for ICD coding from clinical text} {} EVALUATED

{pt=A Classificação Internacional de Doenças (CID) foi adotada a nível mundial no domínio da saúde. No entanto, a codificação manual de documentos clínicos de acordo com esta norma é um processo mais moroso e dispendioso do que desejado, bem como suscetível a erros. Assim, algoritmos de aprendizagem automática, em particular com recurso a redes neuronais profundas, podem e têm sido utilizados para automatizar a codificação clínica. Esta dissertação apresenta um novo método, que tem por base redes neuronais, para atribuir códigos CID a notas de alta hospitalar, combinando o uso de word embeddings, unidades recorrentes e atenção neuronal. A rede neuronal explora a natureza hierárquica dos dados utilizados, construindo representações tanto ao nível das palavras como das frases e incluindo em cada nível um mecanismo de atenção neuronal. Além disso, várias estratégias inovadoras foram testadas juntamente com o modelo proposto, incluindo um mecanismo de suavização multi-label, potenciando a estrutura hierárquica dos códigos CID, bem como estratégias de aumento de dados ou a utilização de unidades recorrentes alternativas. Foram realizadas experiências com o conjunto público de dados do MIMIC III, mostrando que o modelo proposto supera vários modelos anteriores que fazem uso de redes neuronais na maioria das métricas de avaliação. Conclui-se, ainda, que o modelo proposto apresenta um enorme potencial para ser aplicado em hospitais e outras instituições de saúde, como parte de um sistema inteligente que auxilie nas tarefas de codificação., en=The International Classification of Diseases (ICD) has been adopted worldwide in the healthcare domain. However, manual ICD coding of clinical documents is both time-consuming and error-prone, and it represents a huge monetary burden for a health facility. Thus, machine learning and deep learning algorithms can and have been used to automate ICD coding. This dissertation presents a novel deep neural network method for assigning ICD codes to clinical discharge summaries, combining word embeddings, recurrent units, and neural attention. The neural network explores the hierarchical nature of the input data by building representations at word and sentence-levels, also including at each level an attention mechanism. Moreover, several innovative strategies were tested together with the proposed model, including multi-label smoothing regularization, leveraging the hierarchical structure of the ICD codes, as well as data augmentation strategies or the use of alternative recurrent units. Experiments were conducted on the publicly available MIMIC III dataset, showing that the proposed model outperforms several previous deep learning models in most performance metrics. The proposed approach has the potential to be applied in hospitals and other health facilities, as part of a recommendation system for clinical coding.}
{pt=Codificação CID Automática, Notas de Alta Hospitalar, Aprendizagem com Redes Profundas, Processamento de Linguagem Natural, Classificação Multi-Label, en=Automatic ICD Coding, Hospital Discharge Summaries, Deep Learning, Natural Language Processing, Multi-Label Classification}

Janeiro 26, 2021, 10:0

Orientação

ORIENTADOR

João Paulo Neves Leal

CUF

Especialista

ORIENTADOR

Bruno Emanuel Da Graça Martins

Departamento de Engenharia Informática (DEI)

Professor Auxiliar