Dissertação

{en_GB=Integrating Outlier Detection into Pentaho Data Integration} {} EVALUATED

{pt=Nos últimos anos os dados tornaram-se num ativo valioso para muitas organizações. Vários problemas, como valores em falta e valores anómalos, podem ter um impacto negativo na qualidade dos dados. A má qualidade dos dados afeta negativamente a qualidade dos resultados obtidos da sua análise, o que, por sua vez, afeta negativamente a qualidade das decisões tomadas pelas organizações. Data profiling, o conjunto de processos para examinar conjuntos de dados e produzir metadados, pode ajudar na descoberta desses problemas de qualidade de dados. Os metadados produzidos por data profiling são de especial interesse para a área de integração de dados. O Pentaho Data Integration (PDI) é uma ferramenta de integração de dados bastante usada que atualmente não possui muitas das funcionalidades de data profiling, incluíndo a deteção de anomalias. O presente trabalho pretende colmatar essa falha ao adicionar a funcionalidade de deteção de anomalias ao PDI. O sistema desenvolvido é composto por 2 módulos: um para deteção de anomalias e outro para visualização de anomalias. A deteção de anomalias é feita usando quatro algoritmos bem conhecidos da literatura: DB(p,d)-Outliers, LOF, DBSCAN e ABOD. Também foi incluído um ensemble simples para deteção de anomalias, que procura adicionar robustez aos resultados dos algoritmos individuais. A visualização de anomalias é feita com a ajuda de duas visualizações de dados que foram implementadas: Scatterplot e Parallel Coordinates. Resultados dos testes de usabilidade mostram que o sistema é fácil de usar e que foi bem aceite por utilizadores frequentes do PDI., en=In recent years data has become a valuable asset to many organizations. Several problems, such as missing values and outliers, can have a negative impact on data quality. Poor data quality negatively affects the quality of results obtained from analyzing the data, which in turn negatively impacts the quality of decisions made by organizations. Data profiling, the set of processes to examine data sets and produce metadata, can help in the discovery of such data quality problems. Metadata produced by data profiling is of special interest for data integration. Pentaho Data Integration (PDI) is a well-known data integration tool that currently lacks many data profiling functionalities, including outlier detection. The present work is intended to address this flaw by adding the outlier detection functionality to PDI. The system consists of 2 modules: one for detecting outliers and one for visualizing outliers. The detection of outliers is done using four well-know algorithms from the outlier detection literature: DB(p,d)-Outliers, LOF, DBSCAN, and ABOD. A simple outlier ensemble, for adding robustness to the results of individual algorithms, is also included. The visualization of outliers is done with the help of two data visualizations that were implemented in this work: Scatterplot and Parallel Coordinates. The results from usability tests show that the system is easy to use and was well accepted by frequent users of PDI. }
{pt=Deteção de Anomalias, Data Profiling, Integração de Dados, Pentaho Data Integration, en=Outlier Detection, Anomaly Detection, Data Profiling, Data Integration, Pentaho Data Integration}

Novembro 18, 2019, 9:0

Orientação

ORIENTADOR

Helena Isabel De Jesus Galhardas

Departamento de Engenharia Informática (DEI)

Professor Associado

ORIENTADOR

Daniel Jorge Viegas Gonçalves

Departamento de Engenharia Informática (DEI)

Professor Associado