Dissertação

{en_GB=Automated Classification of Causes of Mortality} {} EVALUATED

{pt=Neste trabalho, é abordada a atribuição automática de códigos CID-10 para causas de morte através da análise de descrições em texto-livre de certificados de óbito, relatórios de autópsia e boletins de informação clínica da Direção-Geral da Saúde. A atribuição é feita através de uma rede neuronal artificial que combina word embeddings, unidades recorrentes e atenção neuronal como mecanismos para gerar as representações intermédias dos conteúdos textuais. A rede neuronal proposta explora ainda a natureza hierárquica dos dados utilizados, ao criar representações das sequências de palavras dentro de cada campo dos certificados para posteriormente as combinar de acordo com a sequência de campos que constituem os dados. Além disso, são explorados mecanismos inovadores para inicializar os pesos das unidades neuronais finais da rede, potenciando a informação de coocorrências entre classes e a estrutura hierárquica do sistema de classificação CID-10. Os resultados experimentais confirmam o contributo dos diferentes componentes da rede neuronal. O melhor modelo atinge valores de exatidão de 89%, 81% e 76% para os capítulos, blocos e códigos de quatro dígitos da CID-10, respetivamente. Através de exemplos, é também demonstrado como o método proposto produz resultados interpretáveis, úteis para aplicação em vigilância de saúde pública. , en=This work addresses the automatic assignment of ICD-10 codes for causes of death by analyzing free-text descriptions in death certificates, together with the associated autopsy reports and clinical bulletins, from the Portuguese Ministry of Health. The proposed method leverages a deep neural network that combines word embeddings, recurrent units, and neural attention as mechanisms for the generation of intermediate representations of the textual contents. The neural network also explores the hierarchical nature of the input data, by building representations from the sequences of words within individual fields, which are then combined according to the sequences of fields that compose the input. Moreover, innovative mechanisms for initializing the weights of the final nodes of the network are explored, leveraging co-occurrences between classes together with the hierarchical structure of ICD-10. Experimental results attest to the contribution of the different neural network components. The best model achieves accuracy scores over 89%, 81%, and 76%, respectively for ICD-10 chapters, blocks, and full-codes. Through examples, this document also shows that the proposed method can produce interpretable results, useful for public health surveillance. }
{pt=Codificação CID automática, Prospecção de Texto, Aprendizagem com Redes Profundas, Processamento de Linguagem Natural, Inteligência Artifical na Medicina, en=Automated ICD Coding, Clinical Text Mining, Deep Learning, Natural Language Processing, Artificial Intelligence in Medicine}

Outubro 13, 2017, 9:0

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Bruno Emanuel Da Graça Martins

Departamento de Engenharia Informática (DEI)

Professor Auxiliar

ORIENTADOR

Mário Jorge Costa Gaspar da Silva

Departamento de Engenharia Informática (DEI)

Professor Catedrático