Dissertação

CLEENEX: Iterative Data Cleaning with User Intervention EVALUATED

Ao longo dos anos, o Homem tem vindo a recolher enormes quantidades de dados, relativos a praticamente tudo. Manipular dados com boa qualidade é crucial e, para o garantir, e minimizar eventuais problemas de qualidade existentes, utilizam-se processos de data cleaning. Nem sempre é possível automatizar completamente os processos de data cleaning, pois podem requerer múltiplas revisões, até que o resultado produzido seja satisfatório. Em suma, data cleaning deve ser vista como uma tarefa iterativa, que pode ser refinada pelo utilizador. A framework CLEENEX permite a especificação e execução de processos de data cleaning, que são modelados como grafos de transformações de dados, chamados de Data Cleaning Graphs (DCG). O objetivo desta framework é permitir a execução iterativa dos DCGs e possibilitar a intervenção do utilizador durante a execução dos processos. Para tal, a framework permite que os DCGs sejam adornados com Quality Constraints (QCs) e Manual Data Repairs (MDRs). No contexto desta tese, implementámos funcionalidades na framework para garantir a execução iterativa dos processos de data cleaning e possibilitar a incorporação do feedback do utilizador. O objetivo principal do trabalho desenvolvido foi possibilitar a correcta execução dos processos e melhorar a experiência do utilizador, reduzindo o esforço de intervenção que lhe é requerido. Para validar as funcionalidades implementadas, realizámos validações experimentais exaustivas, para comprovar a eficácia dos processos de data cleaning e medir o esforço requerido ao utilizador (aquando da sua intervenção). As validações endereçaram conjuntos de dados de domínios diferentes e com problemas de qualidade distintos.
Data Cleaning, Qualidade de Dados, Intervenção do Utilizador, Manual Data Repair, Execução Iterativa

Novembro 2, 2017, 10:30

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Helena Isabel De Jesus Galhardas

Departamento de Engenharia Informática (DEI)

Professor Auxiliar

ORIENTADOR

Maria Antónia Bacelar da Costa Lopes

Departamento de Informática (FCUL)

Professor Associado