Dissertação

{en_GB=Clustering multivariate time series using dynamic Bayesian networks} {} EVALUATED

{pt= As séries temporais multivariadas são extremamente utilizadas hoje em dia por serem uma forma conveniente de organizar e guardar grandes quantidades de informação. Nesta tese descrevemos o algoritmo CRATES, que lida especificamente com os problemas relacionados com fazer clusters de dados expressos em séries temporais multivariadas. Estes problemas são maioritariamente causados pela possível existência de valores não numéricos nas séries temporais, dificultando bastante o processo de clustering. Propomos uma alternativa a um método já existente que oferecia uma solução interessante ao usar Hidden Markov Models para modular cada série temporal, assim como a distância estatística de Kullback-Leibler para conseguir a matriz de distancias usada para fazer o clustering. No nosso caso, propomos a utilização de Redes de Bayes Dinâmicas em vez de Modelos de Markov e usamos várias outras distâncias estatísticas. Assim, melhoramos a qualidade dos clusters e removemos algumas imperfeições inerentes do algoritmo original. O CRATES foi primeiramente testado com dados sintéticos com o intuito de mostrar o seu potencial, seguido de testes em várias bases de dados reais, nos quais comparamos os resultados obtidos com outros do estado da arte usando indices de validação conhecidos para mostrar que o algoritmo proposto é competitivo, tendo um enorme potencial. , en=Multivariate time series are extremely popular in today's society since they are a convenient way of organizing and storing big amounts of information. In this thesis, we describe CRATES, an algorithm that specifically addresses the problems related to clustering multivariate time series. These problems are mainly caused by the possible existence of categorical values in the time series, which makes clustering very tricky. There is a known method that offers a workaround by using Hidden Markov Models to model each Time Series as well as the Kullback-Leibler divergence to achieve the distance matrix necessary to perform partitional clustering. We propose an alternative that uses Dynamic Bayesian Networks instead, with an assortment of different statistical distances to improve cluster quality as well as overcome some obstacles for the original algorithm. We started by testing the devised method with synthetic data, showing that it is able to perform proper clusterings. Then we performed tests with several real-life datasets and compared the results with state-of-the-art methods using commonly used clustering validation indexes to prove it is a strong alternative to the few existing algorithms, showing tremendous potential.}
{pt=Clustering, Séries Temporais Multivariadas, Redes de Bayes Dinâmicas, Validação de Clusters, en=Clustering, Multivariate Time Series, Dynamic Bayesian Networks, Cluster Validation}

Outubro 22, 2020, 14:0

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Susana de Almeida Mendes Vinga Martins

Departamento de Bioengenharia (DBE)

Professor Associado

ORIENTADOR

Alexandra Sofia Martins de Carvalho

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Professor Auxiliar