Dissertação

{en_GB=CLEENEX: Iterative Data Cleaning with User Intervention} {} EVALUATED

{pt=Ao longo dos anos, o Homem tem vindo a recolher enormes quantidades de dados, relativos a praticamente tudo. Manipular dados com boa qualidade é crucial e, para o garantir, e minimizar eventuais problemas de qualidade existentes, utilizam-se processos de data cleaning. Nem sempre é possível automatizar completamente os processos de data cleaning, pois podem requerer múltiplas revisões, até que o resultado produzido seja satisfatório. Em suma, data cleaning deve ser vista como uma tarefa iterativa, que pode ser refinada pelo utilizador. A framework CLEENEX permite a especificação e execução de processos de data cleaning, que são modelados como grafos de transformações de dados, chamados de Data Cleaning Graphs (DCG). O objetivo desta framework é permitir a execução iterativa dos DCGs e possibilitar a intervenção do utilizador durante a execução dos processos. Para tal, a framework permite que os DCGs sejam adornados com Quality Constraints (QCs) e Manual Data Repairs (MDRs). No contexto desta tese, implementámos funcionalidades na framework para garantir a execução iterativa dos processos de data cleaning e possibilitar a incorporação do feedback do utilizador. O objetivo principal do trabalho desenvolvido foi possibilitar a correcta execução dos processos e melhorar a experiência do utilizador, reduzindo o esforço de intervenção que lhe é requerido. Para validar as funcionalidades implementadas, realizámos validações experimentais exaustivas, para comprovar a eficácia dos processos de data cleaning e medir o esforço requerido ao utilizador (aquando da sua intervenção). As validações endereçaram conjuntos de dados de domínios diferentes e com problemas de qualidade distintos., en=Over the years, mankind has been collecting huge amounts of data, for virtually everything. Manipulating data with good quality is crucial; hence, to ensure their fitness for use, data cleaning processes are conducted. It is not always viable to fully automate data cleaning processes, as they may require multiple revisions until an optimal result is achieved. By nature, data cleaning is an iterative task that should incorporate user refinement. The CLEENEX framework allows the specification and execution of data cleaning processes, which are modeled as graphs of data transformations, named Data Cleaning Graphs (DCG). The objective of this framework is to allow the iterative execution of the DCGs and to enable user intervention during the execution of the processes. For this, the framework allows the DCGs to be complemented with Quality Constraints (QCs) and Manual Data Repairs (MDRs). In the context of this thesis, we have implemented functionalities in the framework, to allow the iterative execution of the data cleaning processes, as well as the incorporation of user feedback; while minimizing the user effort required. In order to validate the functionalities implemented, we performed exhaustive experimental validations to prove the effectiveness of the processes executed and to measure the required user effort. The validations were done over uncleaned datasets, from different domains, and with different quality issues. The results obtained proved to validate the work performed.}
{pt=Data Cleaning, Qualidade de Dados, Intervenção do Utilizador, Manual Data Repair, Execução Iterativa, en=Data Cleaning, Data Quality, User Intervention, Manual Data Repair, Iterative Execution}

Novembro 2, 2017, 10:30

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Helena Isabel De Jesus Galhardas

Departamento de Engenharia Informática (DEI)

Professor Auxiliar

ORIENTADOR

Maria Antónia Bacelar da Costa Lopes

Departamento de Informática (FCUL)

Professor Associado