Dissertação
{en_GB=Automated Classification of Causes of Mortality} {} EVALUATED
{pt=Neste trabalho, é abordada a atribuição automática de códigos CID-10 para causas de morte através da análise de descrições em texto-livre de certificados de óbito, relatórios de autópsia e boletins de informação clínica da Direção-Geral da Saúde. A atribuição é feita através de uma rede neuronal artificial que combina word embeddings, unidades recorrentes e atenção neuronal como mecanismos para gerar as representações intermédias dos conteúdos textuais. A rede neuronal proposta explora ainda a natureza hierárquica dos dados utilizados, ao criar representações das sequências de palavras dentro de cada campo dos certificados para posteriormente as combinar de acordo com a sequência de campos que constituem os dados. Além disso, são explorados mecanismos inovadores para inicializar os pesos das unidades neuronais finais da rede, potenciando a informação de coocorrências entre classes e a estrutura hierárquica do sistema de classificação CID-10. Os resultados experimentais confirmam o contributo dos diferentes componentes da rede neuronal. O melhor modelo atinge valores de exatidão de 89%, 81% e 76% para os capítulos, blocos e códigos de quatro dígitos da CID-10, respetivamente. Através de exemplos, é também demonstrado como o método proposto produz resultados interpretáveis, úteis para aplicação em vigilância de saúde pública. , en=This work addresses the automatic assignment of ICD-10 codes for causes of death by analyzing free-text descriptions in death certificates, together with the associated autopsy reports and clinical bulletins, from the Portuguese Ministry of Health. The proposed method leverages a deep neural network that combines word embeddings, recurrent units, and neural attention as mechanisms for the generation of intermediate representations of the textual contents. The neural network also explores the hierarchical nature of the input data, by building representations from the sequences of words within individual fields, which are then combined according to the sequences of fields that compose the input. Moreover, innovative mechanisms for initializing the weights of the final nodes of the network are explored, leveraging co-occurrences between classes together with the hierarchical structure of ICD-10. Experimental results attest to the contribution of the different neural network components. The best model achieves accuracy scores over 89%, 81%, and 76%, respectively for ICD-10 chapters, blocks, and full-codes. Through examples, this document also shows that the proposed method can produce interpretable results, useful for public health surveillance. }
outubro 13, 2017, 9:0
Publicação
Obra sujeita a Direitos de Autor
Orientação
ORIENTADOR
Bruno Emanuel Da Graça Martins
Departamento de Engenharia Informática (DEI)
Professor Auxiliar
ORIENTADOR
Mário Jorge Costa Gaspar da Silva
Departamento de Engenharia Informática (DEI)
Professor Catedrático