Dissertação

CLEENEX - Debugger EVALUATED

Actualmente existem diversas fontes de dados, com diferentes representações dos dados. Se for necessário utilizar dados, de múltiplas fontes, representados de diferentes formas, é necessário integrar essas fontes. Dessa integração podem resultar problemas de qualidade de dados, por exemplo registos aproximadamente duplicados. Uma das soluções para corrigir esses problemas é usar ferramentas de limpeza de dados. Essas ferramentas modelam o processo de limpeza como um grafo de transformações de dados. Tipicamente, não se conseguem corrigir todos os problemas de qualidade de dados numa primeira execução do grafo. O processo de limpeza de dados é executado e refinado iterativamente. Para o utilizador conseguir refinar os critérios de limpeza (i.e., transformações de dados), é necessário que compreenda por que razão determinados problemas de qualidade de dados não foram corrigidos nas iterações anteriores. Assim, é importante fazer debugging ao grafo de transformações de dados. O debugging envolve um processo de derivação de dados, ou seja, percorrer para trás e para a frente o grafo de transformações. Este documento propõe o desenho e implementação de uma componente de debugging, baseada na derivação de dados, para o protótipo de limpeza CLEENEX. Nessa componente, a derivação de dados é suportada através da proveniência de dados. Para identificar a proveniência, são propagados atributos das tabelas de entrada para as respectivas tabelas de saída nos operadores do grafo de transformações. Para validar o debugger, a performance da componente de derivação de dados foi avaliada. A avaliação mostrou que não existem problemas de performance para a maioria dos operadores.
Debugging, Proveniência de dados, Limpeza de dados, Transformação de dados

novembro 10, 2015, 14:30

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Helena Isabel De Jesus Galhardas

Departamento de Engenharia Informática (DEI)

Professor Auxiliar