FenixEdu™

Dissertação

{en_GB=A software infrastructure for the CLEENEX optimizer} {} EVALUATED

Detalhes: {pt=Os problemas associados à qualidade dos dados é uma preocupação cada vez mais crescente. Ao longo deste documento vamos focar-nos num problema específico de qualidade de dados: a existência de registos aproximadamente duplicados. Um processo de limpeza de dados visa corrigir problemas de qualidade de dados que podem ser encontrados em diversas situações. Existem algumas ferramentas de limpeza de dados que abordam estes problemas de qualidade de dados. Uma das tarefas de um programa de limpeza de dados é a detecção de duplicados aproximados. A detecção de duplicados aproximados deve ser eficiente, porque se estivermos a lidar com uma grande quantidade de dados, comparar todos os registos irá resultar num défice de desempenho. O objectivo do optimizador numa ferramenta de limpeza de dados é a construção de vários planos de execução para o programa de limpeza de dados e, com base no custo de cada plano de execução, escolher o mais eficiente. De modo a ter o optimizador, é necessário construir uma infraestrutura de software para suportá-lo. Em particular, esta infraestrutura deve fornecer diversas alternativas que melhorem a eficiência da detecção de duplicados aproximados. Nesta tese desenvolvemos e implementámos uma infraestrutura para suportar um optimizador para o CLEENEX, uma ferramenta de limpeza de dados. Neste documento, também descrevemos a metodologia de validação tendo em conta a infraestrutura implementada., en=The problems associated to data quality is an increasingly growing concern. Throughout this document we will focus on a specific data quality problem: the existence of approximate duplicate records. Data cleaning aims at correcting data quality problems that can be found in various situations. There are some data cleaning tools that address these data quality problems. One of the tasks of a data cleaning program consists in the approximate duplicate detection. The approximate duplicate detection must be efficient, because if we are dealing with a large amount of data, comparing all the records will result in a performance bottleneck. The goal of the optimizer in a data cleaning tool is to build several execution plans for the data cleaning program and, based on the cost of each execution plan, choose the most efficient. In order to have the optimizer, we need to build a software infrastructure to support it. In particular, this infrastructure must provide several alternatives that improve the efficiency of the approximate duplicate detection. In this thesis, we designed and implemented an infrastructure to support an optimizer for CLEENEX, a data cleaning tool. In this document we also describe the validation methodology regarding the implemented infrastructure.}
Keywords: {pt=Detecção de duplicados aproximados, optimizador, data matching, record matching, en=Approximate duplicate detection, optimizer, data matching, record matching}

Discussão: novembro 11, 2015, 14:30