Dissertação

{en_GB=Phenotyping and Understanding Multimorbidity} {} EVALUATED

{pt=Esta dissertação propõe um pipeline de processamento de informação para a extração de dados fenotípicos e análise de multimorbidade. O pipeline consiste num processo de ETL aplicado a dados de Registos Clínicos Eletrónicos (RCE), compilando os mesmos num Clinical Data Repository (CDR). Este organiza as informações de maneira estruturada e unificada, permitindo uma análise de multimorbidade. A multimorbidade, definida como a coocorrência de duas ou mais doenças crónicas, tem sérias implicações nos indivíduos e nos sistemas de saúde, e está previsto o aumento da sua prevalência. Porém, poucos recursos são investidos para identificar (ou seja, fenotipar) e caracterizar pacientes com multimorbidade. Os RCE podem desempenhar um papel importante na melhor compreensão da multimorbidade. Com este pipeline, três estudos foram realizados: (i) Desenvolvimento e avaliação de um modelo de NLP para processar os resumos de alta da base de dados MIMIC-III, por forma a identificar doenças crónicas. O modelo foi avaliado usando dados rotulados de acordo com sistema de codificação CID-9 e atribuídos por especialistas após revisão manual, tendo alcançado F1-scores de 0.93 e 0.97, respetivamente; (ii) Avaliação do impacto e aumento dos riscos associados à multimorbidade na população infetada com COVID-19 em Portugal. Os resultados mostraram que a multimorbidade está significativamente associada a desfechos adversos; (iii) Estudo dos padrões e evolução temporal da multimorbidade em pacientes da base de dados Enroll-HD. Foram detetadas relações evidentes entre condições crónicas, nomeadamente hipertensão, dislipidemia e diabetes. No entanto, estes resultados devem ser lidos com um certo grau de reserva devido ao dataset utilizado. , en=This dissertation proposes an information processing pipeline for phenotype data extraction and multimorbidity analysis. The pipeline consists of an Extract, Transform, and Load (ETL) process that is applied to Electronic Health Record (EHR) data, collecting it in an Observable Clinical Data Repository (CDR). The CDR organizes information, in a unified structured manner, and supports a subsequent multimorbidity analysis. Multimorbidity, as the co-occurrence of two or more chronic conditions, has serious implications on individuals and healthcare systems, and its prevalence is expected to increase in future generations. However, few resources are invested in tools to identify (i.e., phenotype) and characterize patients with multimorbidity. EHRs could play an important role in better understanding multimorbidity. With this pipeline, three studies were developed: (i) Development and evaluation of a Natural Language Processing (NLP) model to process full-text contents of MIMIC-III discharge summaries, for identifying chronic conditions. The model was evaluated using human-assigned ICD-9 diagnostic codes and manually reviewed labels, having achieved averaged F1-scores of 0.93 and 0.97, respectively; (ii) Assessment of the impact and increased risks associated with multimorbidity in the COVID-19 infected population on the Portuguese SINAVE database. Findings showed that multimorbidity is significantly associated with poor outcomes in this population; (iii) Study on the patterns and temporal evolution of multimorbidity in clinical patient timelines on the Enroll-HD dataset. Clear relationships between chronic conditions, namely hypertension, dyslipidemia, and diabetes were detected. However, these should be seen with some degree of reservation because of the dataset used.}
{pt=Multimorbilidade, Registos Clínicos Eletrónicos, Fenotipagem, NLP, en=Multimorbidity, EHR, Electronic Phenotyping, NLP}

Dezembro 30, 2020, 14:0

Orientação

ORIENTADOR

Bernardo Alves Vieira Duque Neves

Hospital da Luz

Especialista

ORIENTADOR

Mário Jorge Costa Gaspar da Silva

Departamento de Engenharia Informática (DEI)

Professor Catedrático