Dissertação

A software infrastructure for the CLEENEX optimizer EVALUATED

Os problemas associados à qualidade dos dados é uma preocupação cada vez mais crescente. Ao longo deste documento vamos focar-nos num problema específico de qualidade de dados: a existência de registos aproximadamente duplicados. Um processo de limpeza de dados visa corrigir problemas de qualidade de dados que podem ser encontrados em diversas situações. Existem algumas ferramentas de limpeza de dados que abordam estes problemas de qualidade de dados. Uma das tarefas de um programa de limpeza de dados é a detecção de duplicados aproximados. A detecção de duplicados aproximados deve ser eficiente, porque se estivermos a lidar com uma grande quantidade de dados, comparar todos os registos irá resultar num défice de desempenho. O objectivo do optimizador numa ferramenta de limpeza de dados é a construção de vários planos de execução para o programa de limpeza de dados e, com base no custo de cada plano de execução, escolher o mais eficiente. De modo a ter o optimizador, é necessário construir uma infraestrutura de software para suportá-lo. Em particular, esta infraestrutura deve fornecer diversas alternativas que melhorem a eficiência da detecção de duplicados aproximados. Nesta tese desenvolvemos e implementámos uma infraestrutura para suportar um optimizador para o CLEENEX, uma ferramenta de limpeza de dados. Neste documento, também descrevemos a metodologia de validação tendo em conta a infraestrutura implementada.
Detecção de duplicados aproximados, optimizador, data matching, record matching

novembro 11, 2015, 14:30

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Helena Isabel De Jesus Galhardas

Departamento de Engenharia Informática (DEI)

Professor Auxiliar