Dissertação
CLEENEX: Iterative Data Cleaning with User Intervention EVALUATED
Ao longo dos anos, o Homem tem vindo a recolher enormes quantidades de dados, relativos a praticamente tudo. Manipular dados com boa qualidade é crucial e, para o garantir, e minimizar eventuais problemas de qualidade existentes, utilizam-se processos de data cleaning. Nem sempre é possível automatizar completamente os processos de data cleaning, pois podem requerer múltiplas revisões, até que o resultado produzido seja satisfatório. Em suma, data cleaning deve ser vista como uma tarefa iterativa, que pode ser refinada pelo utilizador. A framework CLEENEX permite a especificação e execução de processos de data cleaning, que são modelados como grafos de transformações de dados, chamados de Data Cleaning Graphs (DCG). O objetivo desta framework é permitir a execução iterativa dos DCGs e possibilitar a intervenção do utilizador durante a execução dos processos. Para tal, a framework permite que os DCGs sejam adornados com Quality Constraints (QCs) e Manual Data Repairs (MDRs). No contexto desta tese, implementámos funcionalidades na framework para garantir a execução iterativa dos processos de data cleaning e possibilitar a incorporação do feedback do utilizador. O objetivo principal do trabalho desenvolvido foi possibilitar a correcta execução dos processos e melhorar a experiência do utilizador, reduzindo o esforço de intervenção que lhe é requerido. Para validar as funcionalidades implementadas, realizámos validações experimentais exaustivas, para comprovar a eficácia dos processos de data cleaning e medir o esforço requerido ao utilizador (aquando da sua intervenção). As validações endereçaram conjuntos de dados de domínios diferentes e com problemas de qualidade distintos.
novembro 2, 2017, 10:30
Publicação
Obra sujeita a Direitos de Autor
Orientação
ORIENTADOR
Helena Isabel De Jesus Galhardas
Departamento de Engenharia Informática (DEI)
Professor Auxiliar
ORIENTADOR
Maria Antónia Bacelar da Costa Lopes
Departamento de Informática (FCUL)
Professor Associado