Dissertação
Integrating Outlier Detection into Pentaho Data Integration EVALUATED
Nos últimos anos os dados tornaram-se num ativo valioso para muitas organizações. Vários problemas, como valores em falta e valores anómalos, podem ter um impacto negativo na qualidade dos dados. A má qualidade dos dados afeta negativamente a qualidade dos resultados obtidos da sua análise, o que, por sua vez, afeta negativamente a qualidade das decisões tomadas pelas organizações. Data profiling, o conjunto de processos para examinar conjuntos de dados e produzir metadados, pode ajudar na descoberta desses problemas de qualidade de dados. Os metadados produzidos por data profiling são de especial interesse para a área de integração de dados. O Pentaho Data Integration (PDI) é uma ferramenta de integração de dados bastante usada que atualmente não possui muitas das funcionalidades de data profiling, incluíndo a deteção de anomalias. O presente trabalho pretende colmatar essa falha ao adicionar a funcionalidade de deteção de anomalias ao PDI. O sistema desenvolvido é composto por 2 módulos: um para deteção de anomalias e outro para visualização de anomalias. A deteção de anomalias é feita usando quatro algoritmos bem conhecidos da literatura: DB(p,d)-Outliers, LOF, DBSCAN e ABOD. Também foi incluído um ensemble simples para deteção de anomalias, que procura adicionar robustez aos resultados dos algoritmos individuais. A visualização de anomalias é feita com a ajuda de duas visualizações de dados que foram implementadas: Scatterplot e Parallel Coordinates. Resultados dos testes de usabilidade mostram que o sistema é fácil de usar e que foi bem aceite por utilizadores frequentes do PDI.
novembro 18, 2019, 9:0
Publicação
Obra sujeita a Direitos de Autor
Orientação
ORIENTADOR
Helena Isabel De Jesus Galhardas
Departamento de Engenharia Informática (DEI)
Professor Associado
ORIENTADOR
Departamento de Engenharia Informática (DEI)
Professor Associado