FenixEdu™

Dissertação

{en_GB=Profiling the Amyotrophic Lateral Sclerosis disease progression through data mining techniques} {} EVALUATED

Detalhes: {pt=O processo de extração de informação a partir de dados é uma das áreas de conhecimento mais exploradas da atualidade, tendo sido impulsionada pelo grande crescimento da capacidade de armazenamento. Nesta dissertação, o principal foco vai incidir sobre a extração de informação de dados não categorizados que inviabilizam a construção de modelos com base na classe. A utilização de métodos não supervisionados torna-se, assim, a melhor solução para agrupar as várias observações. O principal objetivo desta dissertação consiste em aplicar algoritmos de clustering a dados de pacientes com Esclerose Lateral Amiotrófica (ELA) de forma a analisar a necessidade de assistir o paciente com um tratamento denominado de respiração não-invasiva. Desta forma, foram realizadas três abordagens diferentes, sendo que a componente temporal foi introduzida progressivamente desde a primeira até à última. Na primeira, a componente temporal foi desprezada, ou seja, os vários instantes temporais da série foram separados em várias instâncias independentes. Na segunda abordagem, foram aplicados métodos de sumarização que transformaram as séries temporais em instâncias multivariadas. Em ambas as abordagens foram utilizadas técnicas convencionais de dissemelhança e de clustering para agrupar os dados. No último teste a componente temporal foi completamente preservada. Esta abordagem foi antecedida de um estudo que comparou diferentes medidas de dissemelhança de séries temporais recorrendo a vários conjuntos de dados sintéticos. A medida de dissemelhança que obteve os melhores resultados foi aplicada no último teste aos dados reais da ELA. Apesar das várias abordagens, os resultados não se mostraram conclusivos., en=The process of extracting information from data, which can consist of a bunch of numbers and words, is one of the most explored fields that was boosted by the ease of data storage. In this thesis, the focus will be on the extraction of information from non-labelled data which is a more complex task, since it is not possible to use the label of the instances to build a model for further analysis of new instances. Hence, unsupervised methods will be used to group the observations. The main goal of this dissertation is to apply clustering algorithms on a dataset of Amyotrophic Lateral Sclerosis (ALS) patients in order to analyse the need for non-invasive ventilation (NIV) of each patient. In order to do that, three different approaches were used in which the time constraint was introduced progressively. In the first approach, time was completely despised by splitting the time series into a set of independent multivariate instances. In the second approach, the time series of every patient were summarized into a single multivariate instance. In both cases, conventional techniques were used to group data. Finally, in the third approach, the whole time series were used to analyse the need of NIV. In this case, in order to choose the most suitable dissimilarity measure, some dissimilarity measures prepared to analyse differences between time series were compared using synthetic datasets and the one with the best results was applied on the ALS data. Despite the various approaches, the results were not conclusive. }
Keywords: {pt=data mining, métodos não supervisionados, clustering, séries temporais, ELA, en=data mining, unsupervised methods, clustering, time series, ALS}

Discussão: junho 20, 2018, 14:0