Dissertação

{en_GB=Temporal sequence alignment and agglomerative clustering for the analysis of medical longitudinal data} {} EVALUATED

{pt=O agrupamento de pacientes é uma tarefa muito importante na área da medicina uma vez que pode ajudar os médicos a tratarem os diferentes grupos de forma personalizada. Foi desenvolvido pouco trabalho em clustering (agrupamento) com base em alinhamento de sequências a partir de dados clínicos e usando a informação temporal inerente a estes. A literatura apresenta maioritariamente técnicas de alinhamento e clustering de sequências biológicas, como por exemplo, sequências de proteínas. Neste trabalho, usamos o Temporal Needleman-Wunsch (TNW), uma versão modificada do algoritmo de alinhamento Needleman-Wunsch (NW) que incorpora transições temporais entre eventos de uma sequência. O método proposto neste trabalho, denominado AliClu, determina o número correcto de clusters ao combinar TNW com clustering hierárquico aglomerativo. O método começa por criar um conjunto de sequências temporais. De seguida, o alinhamento destas, par a par, é efectuado com o TNW, que resulta numa matriz de semelhanças que por sua vez é usada no clustering hierárquico aglomerativo. Para descobrir o número de grupos e estudar a estabilidade de cada cluster, é implementada uma técnica de reamostragem. Dados sintéticos foram gerados para validar o método desenvolvido, nestes verificou-se que é possível separar sequências com base na informação temporal. Nos dados reais, da Sociedade Portuguesa de Reumatologia (Reuma.pt), os resultados mostram que o agrupamento de pacientes é obtido com sucesso. No entanto, o método proposto teve dificuldades quando o número de clusters aumenta e sequências temporais são longas. Portanto, uma investigação mais aprofundada é necessária em trabalhos posteriores, nomeadamente, no ajustamento de parâmetros. , en=Clustering of patients is a very important task in the medical area because it can help physicians treat different groups of patients in a personalized way. Little prior work has been done in clustering based on sequence alignment with longitudinal data that comes from clinical practice. The literature mostly describes techniques that perform sequence alignment and clustering of biological sequences, such as protein sequences. In this work, we propose to apply the Temporal Needleman-Wunsch (TNW), a modified Needleman-Wunsch (NW) algorithm commonly used in Bioinformatics, which incorporates transition times between events of a sequence. The proposed method, named AliClu, tries to output the correct number of clusters by combining TNW with agglomerative hierarchical clustering. The method starts by creating a set of temporal sequences. Pairwise alignment of the sequences is then performed with TNW, which outputs a similarity matrix that is used in agglomerative clustering. In order to find the appropriate number of clusters and assess the stability of each cluster, a resampling technique is applied. Synthetic data was generated to validate the proposed method which allowed us to demonstrate that separation of sequences based on the temporal information is possible. Furthermore, the results with the real dataset, from the Portuguese Society of Rheumatology (Reuma.pt), showed that successful separation of the patients can be achieved. However, our method does not perform so well when the number of clusters increase and long sequences are used, hence, further investigation is required in tuning the parameters. }
{pt=alinhamento de sequências temporais, agrupamento, reamostragem, índices de agrupamentos., en=temporal sequence alignment, clustering, bootstrap, clustering indices.}

Junho 22, 2018, 14:0

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Susana de Almeida Mendes Vinga Martins

Departamento de Engenharia Informática (DEI)

Professor Associado

ORIENTADOR

Alexandra Sofia Martins de Carvalho

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Professor Auxiliar