Dissertação

{pt_PT=Machine Learning Approaches for Survival Prediction of Critically Ill Patients Under Insulin Therapy} {} EVALUATED

{pt=Esta dissertação propõe o desenvolvimento de um modelo capaz de predizer a mortalidade de pacientes sob o efeito de insulina em UCI, utilizando a base de dados MIMIC-III. A terapia com insulina é crucial para controlar os níveis de açúcar no sangue em pacientes em estado crítico. No entanto, não há consenso sobre que controlo glicémico, intensivo ou convencional, é mais benéfico de modo a reduzir a mortalidade. Gradient boosting e regressão logística foram as técnicas escolhidas após uma extensiva comparação entre várias técnicas de machine learning. Data sampling foi aplicado para neutralizar o desequilíbrio presente no conjunto de dados e técnicas de feature selection, incluindo uma nova abordagem intitulada recursive feature selection, foram igualmente aplicadas. No geral, gradient boosting com um total de 187 variáveis obteve o melhor desempenho (AUC de 91.4± 1.36) para dados coletados nas primeiras 24 horas na UCI, superando o melhor índice de gravidade, SAPS-II (AUC de 77.4±2.44). Diferentes tempos de previsão foram testados e o mais próximo da alta médica obteve o melhor desempenho (AUC de 94.8±0.92). Após feature selection, um modelo com apenas 7 variáveis obteve um bom desempenho (AUC de 90.2± 1.34). Este modelo foi validado usando dados da base de dados eICU-CRD, alcançando um desempenho semelhante (AUC de 88.0). Finalizando, os modelos foram interpretados usando valores SHAP. Assim, identificaram-se as variáveis que globalmente e individualmente mais afetam os pacientes, dando origem à construção de painéis clínicos individualizados. Estes podem ser uma ferramenta importante numa perspectiva de decisões médicas auxiliadas por dados. , en=This thesis proposes the development of a classification model capable of predict mortality in patients under insulin therapy in ICU using data from MIMIC-III database. Insulin therapy is crucial to control blood sugar levels for critical-care patients. However, there is no consensus on which is the most beneficial glucose control, either intensive or conventional, for these patients to reduce mortality. Gradient boosting and logistic regression were the chosen modelling techniques after an extensive comparison of several machine learning techniques. Data sampling was applied to counteract the imbalance present in dataset and feature selection techniques, including a novel approach entitled recursive feature selection, were also applied. Overall, gradient boosting with a total of 187 features achieved the highest performance (AUC of 91.4± 1.36) for data collected in patients’ first 24 hours in the ICU and outperformed the highest performance among severity scores, SAPS-II (AUC of 77.4±2.44). Different prediction time-windows were tested and the one nearer to ICU discharge achieved the highest performance among all tested (AUC of 94.8±0.92). After feature selection, a model with only 7 features achieved a good performance (AUC of 90.2±1.34). This model was validated using a previously unseen data from the eICU-CRD database, and a similar performance was achieved (AUC of 88.0). Lastly, models were interpreted using SHAP values. Thus, variables that overall and individually most affect patients were identified, giving rise to the construction of individualized clinical dashboards. These may be an important tool in a perspective of data-aided decisions by physicians. }
{pt=Machine Learning, Previsão de Mortalidade, Insulina, Gradient Boosting, Interpretação de Modelos, en=Machine Learning, Mortality Prediction, Insulin, Gradient Boosting, Model Interpretation}

Junho 17, 2019, 16:0

Orientação

ORIENTADOR

Aldo Robles Arevalo

Instituto Superior Técnico

Especialista

ORIENTADOR

João Miguel Da Costa Sousa

Departamento de Engenharia Mecânica (DEM)

Professor Catedrático