Dissertação

{en_GB=Analysis of heterogeneous and high-dimensional data of rheumatic diseases patients through clustering methods} {} EVALUATED

{pt=As doenças reumáticas e musculoesqueléticas (RMD) são uma das atuais epidemias que afetam a população portuguesa, com implicações diretas na qualidade de vida destes cidadãos. Estudando os diversos fatores que podem influenciar o bem-estar destes pacientes, é possivel retirar informações sobre como melhorar a prevenção de doenças reumáticas, tratamento e assistência dadas à população. Através de dados recolhidos através do questionário de nome EpiDoC, sobre a prevalência destas doenças, métodos para redução de dimensionalidade, como o MCA, e de clustering, como o SNF, foram utilizados para estudar potenciais subgrupos de participantes e desvendar padrãos de variáveis demonstrados pelos mesmos. Após o pré-processamento, os conjuntos de dados já adaptados são processados pelo método SNF, com parametros previamente testados, e classificados em clusters, através de ``Spectral Clustering". Estes são posteriormente avaliados com vários índices de clustering, e a sua estrutura é examinada, a fim de detetar as categorias de variáveis mais comuns entre participantes do mesmo subgrupo. Alguns resultados incluem um grupo de participantes, na sua maioria abaixo dos 45 anos de idade, sem qualquer RMD auto-reportada, e um conjunto de participantes isolados, de faixa etária mais elevada, com pelo menos uma RMD reportada. Em suma, os resultados divulgados nesta tese podem servir como ponto de partida para uma examinação completa de todos os conjuntos de dados EpiDoC, providenciando algum conhecimento no desempenho dos algoritmos usados e sugerindo novas investigações no seguimento das conclusões retiradas dos dados., en=Rheumatic and musculoskeletal diseases (RMD) are one of the leading epidemics among the Portuguese population, with direct implications on the quality of life of the citizens. Therefore, a study on the diverse factors which may influence the well-being of these patients can provide insight on how to improve prevention, treatments and overall assistance given to the population. Through the data collect by the EpiDoC study, methods for dimensionality reduction, such as Multiple Correspondence Analysis (MCA), and clustering methods, like Similarity Network Fusion (SNF), were used to study participant subtypes and investigate possible patterns demonstrated by them. After pre-processing the data, the adapted datasets are processed through the SNF method, with previously tested parameters, and thereupon partitioned into data subgroups with Spectral Clustering. These are then evaluated with clustering indexes and have their structure examined, to detect common feature categories between participants of the same group. Some findings include a group of participants, mostly of ages below 45, without any reported RMD and a set of isolated observations with at least one self-reported RMD. In addition, the SNF method confirmed better performances when using a weighted Hamming distance, for processing categorical data. In conclusion, the findings in this paper can serve as a starting point for a complete examination of all EpiDoC cohorts, providing some details on the performance of the algorithms used and on interesting investigations to follow-up the results here published.}
{pt=Doenças reumáticas, Clustering, Análise de dados, Redução de dimensionalidade, ab-SNF, en=Rheumatic diseases, Clustering, Data analysis, Dimensionality reduction, ab-SNF}

novembro 21, 2019, 17:30

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Susana de Almeida Mendes Vinga Martins

Departamento de Bioengenharia (DBE)

Professor Associado

ORIENTADOR

Alexandra Sofia Martins de Carvalho

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Professor Auxiliar