Dissertação

{pt_PT=Cancer patients stratification using multivariate clustering analysis for therapy optimization} {} EVALUATED

{pt=O interesse em clustering de séries temporais tem vindo a crescer, sendo utilizados nas mais variadíssimas áreas, revelando muitas informações relevantes sobre a o sistema em estudo. Um dos principais pontos dete método é definir uma métrica capaz de avaliar a distancia entre duas séries. Estas podem passar por utilizar a série temporal diretamente, por extrair caracteristicas e só depois compara-las ou até mesmo por comparar modelos gerados a partir das séries temporais. Neste estudo é feita uma proposta de distancia capaz de comparar séries temporais, focada em avaliar a semelhança entre séries curtas multivariadas. Esta distância será então combinada com diferentes metodos de clustering conhecidos, como o K-means e o clustering hierárquico. Várias combinações entre metodos e distancias, denominadas de combo A a combo F, são apresentadas e utilizadas em diferentes bases de dados. No entanto o foco deste estudo é aplica-los em dados médicos. Estes dados são geralmente caracterizados por serem séries temporais curtas e incompletas, normalmente devido aos elevados custos associados às analises médicas ou até mesmo devido a restrições éticas. A base de dados utilizada neste trabalho é referente a doentes oncológicos do Hospital de Santa Maria e consiste numa base de dados pequena, com poucos pacientes, e muitos dados em falta. O algoritmo implementado, que utiliza a função de distancia proposta, revela bons resultados na maioria dos testes, mostrando que esta é uma metrica adequada para avaliar distancia entre duas séries temporais curtas e incompletas., en=The interest in clustering of time series is growing, being used in the most diverse areas, revealing much relevant information about the system under consideration. The basis of time series clustering is on defining a metric capable of evaluating the similarity between two series. This can be done using the time series directly, extracting features to compare them or even comparing models built from the raw data. This study proposes a distance to evaluate the similarity between time series. This distance is meant to be used in multivariate short time series with missing values evaluation. This metric will then be combined with known clustering methods, such as the K-means algorithm and the Hierarchical clustering algorithm. These different combinations of methods and distances, named from combo A to combo F, are used in several datasets. However, the focus of this study is to apply them to medical data, that is characterized by short and incomplete time series, usually due to the high costs associated with medical tests or even due to ethical constraints. The database used in this study refers to cancer patients from Hospital de Santa Maria, and it consists of a small database with few patients and many missing data. The implemented algorithm using the proposed metric revealed a good performance in the majority of the tests, which suggests that this distance function is a suitable metric to evaluate the distance between incomplete short time series.}
{pt=Séries Temporais, Séries Temporais Multivariadas, Distancia entre Séries Temporais, en=Clustering, Short Time Series, Multivariate Time Series, Distance Functions for Time Series}

Junho 5, 2017, 9:30

Orientação

ORIENTADOR

Susana Margarida da Silva Vieira

Departamento de Engenharia Mecânica (DEM)

Prof Auxiliar Convidado

ORIENTADOR

Susana de Almeida Mendes Vinga Martins

Departamento de Engenharia Mecânica (DEM)

Prof Auxiliar Convidado