Dissertação

{en_GB=CLEENEX - Debugger} {} EVALUATED

{pt=Actualmente existem diversas fontes de dados, com diferentes representações dos dados. Se for necessário utilizar dados, de múltiplas fontes, representados de diferentes formas, é necessário integrar essas fontes. Dessa integração podem resultar problemas de qualidade de dados, por exemplo registos aproximadamente duplicados. Uma das soluções para corrigir esses problemas é usar ferramentas de limpeza de dados. Essas ferramentas modelam o processo de limpeza como um grafo de transformações de dados. Tipicamente, não se conseguem corrigir todos os problemas de qualidade de dados numa primeira execução do grafo. O processo de limpeza de dados é executado e refinado iterativamente. Para o utilizador conseguir refinar os critérios de limpeza (i.e., transformações de dados), é necessário que compreenda por que razão determinados problemas de qualidade de dados não foram corrigidos nas iterações anteriores. Assim, é importante fazer debugging ao grafo de transformações de dados. O debugging envolve um processo de derivação de dados, ou seja, percorrer para trás e para a frente o grafo de transformações. Este documento propõe o desenho e implementação de uma componente de debugging, baseada na derivação de dados, para o protótipo de limpeza CLEENEX. Nessa componente, a derivação de dados é suportada através da proveniência de dados. Para identificar a proveniência, são propagados atributos das tabelas de entrada para as respectivas tabelas de saída nos operadores do grafo de transformações. Para validar o debugger, a performance da componente de derivação de dados foi avaliada. A avaliação mostrou que não existem problemas de performance para a maioria dos operadores., en=Currently there are several data sources, with different representations. If it is necessary to use data, from multiple sources, that are represented differently, it is necessary to integrate these sources. The integration of these sources can originate several data quality problems, like the existence of approximate duplicate records. One of the solutions to correct data quality problems is to use data cleaning tools. These tools model the data cleaning process as a graph of data transformations. Typically, it is impossible to solve all data quality problems on the first graph execution. The data cleaning process is executed and refined iteratively. For the user to be able to refine the cleaning criteria (i.e., data transformations), it is necessary to understand why certain data quality problems were not solved on the previous iterations. This is why it is important to debug the data transformation graph. The debugging task involves the data derivation process, meaning, going backward and forward on the transformation graph. This document proposes the design and implementation of a debugging component based on a notion of data derivation for CLEENEX, a data cleaning prototype. In this component, data derivation is supported through data provenance. To identify the data provenance of a tuple, attributes from the input table are propagated to the respective output tables in the operators that compose the data transformation graph. To validate the debugger, we evaluated the performance of the data derivation component. The evaluation did not showed problems in performance for most of operators.}
{pt=Debugging, Proveniência de dados, Limpeza de dados, Transformação de dados, en=Debugging, Data Provenance, Data Cleaning, Data Transformation}

Novembro 10, 2015, 14:30

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Helena Isabel De Jesus Galhardas

Departamento de Engenharia Informática (DEI)

Professor Auxiliar