Dissertação

{en_GB=Autonomous time series data processing on historical and real-time settings} {} EVALUATED

{pt=Redes de sensores heterogéneos, incluindo sistemas de distribuição de água e os seus sistemas de monitorização de tráfego, produzem dados de séries temporais abundantes com uma ordem multivariada arbitrariamente alta para monitorizar a dinâmica da rede e detectar eventos de interesse. No entanto, erros e falhas na calibração, armazenamento ou aquisição de dados podem ocorrer em alguns dos sensores instalados nestes sistemas, produzindo valores omissos e/ou anómalos. Esta tese propõe um sistema computacional, para a limpeza totalmente autónoma de dados de séries temporais multivariados usando critérios de qualidade rigorosos avaliados contra os valores reais extraídos dos dados da série alvo, em contextos de dados históricos e em tempo real. A metodologia proposta é livre de parâmetros por se basear em princípios robustos para avaliação, hiperparameterização e seleção de métodos. Este trabalho oferece suporte a um extenso conjunto de métodos do estado da arte para imputação de séries temporais (multivariadas) e deteção e tratamento de valores anómalos, considerando ocorrências pontuais e de segmento/sequência. Uma avaliação abrangente do sistema é realizada usando sensores heterogéneos de dois sistemas de distribuição de água com taxas de amostragem variadas, padrões de consumo de água e inconsistências. Os resultados confirmam a relevância da abordagem proposta de processamento autónomo e a sua extensibilidade para configurações em tempo real sob garantias de otimização., en=Heterogeneous sensor networks, including water distribution systems and traffic monitoring systems, produce abundant time series data with an arbitrarily-high multivariate order for monitoring network dynamics and detecting events of interest. Nevertheless, errors and failures in the calibration, data storage or acquisition can occur on some of the sensors installed in those systems, producing missing and/or anomalous values. This thesis proposes a computational system, for the fully autonomous cleaning of multivariate time series data using strict quality criteria assessed against ground truth extracted from the targeted series data, on historical and real time data contexts. The proposed methodology is parameterfree as it relies on robust principles for the assessment, hyperparameterization and selection of methods. This work supports an extensive set state-of-the-art methods for (multivariate) time series imputation and outlier detection-and-treatment, considering both point and segment/serial occurrences. A comprehensive evaluation of system is accomplished using heterogeneous sensors from two water distribution systems with varying sampling rates, water consumption patterns, and inconsistencies. Results confirm the relevance of the proposed autonomous processing approach, and its extensibility towards real-time settings under tigtht optimality guarantees. }
{pt=aprendizagem livre de parâmetros, séries temporais multivariadas, imputação de valores omissos, deteção de valores anómalos, redes de sensores heterogéneos, dados em tempo real, en=parameter-free learning, multivariate time series, missing values imputation, outlier detection, heterogeneous sensor networks, real-time data}

Janeiro 20, 2021, 10:30

Orientação

ORIENTADOR

Rui Miguel Carrasqueiro Henriques

Departamento de Engenharia Informática (DEI)

Professor Auxiliar

ORIENTADOR

Maria da Conceição Esperança Amado

Departamento de Matemática (DM)

Professor Auxiliar