FenixEdu™

Dissertação

{en_GB=Optimization of Data Cleaning Programs} {} EVALUATED

Detalhes: {pt=Derivado de um mundo totalmente conectado à internet, são recolhidas grandes quantidades de dados a cada segundo. Contudo, grande parte destes dados estão corrompidos, carecendo de tratamento por parte de uma ferramenta de limpeza de dados. Assim sendo, as ferramentas de limpeza de dados precisam de ter a capacidade de processar grandes quantidades de dados de forma eficaz e rápida. No entanto, manter a performance e eficácia é algo não trivial. Estas ferramentas dependem de algoritmos complexos para realizar as tarefas que permitem limpar os dados. Por exemplo, a implementação naïve da deteção de duplicados aproximados tem uma complexidade quadrática - proibitiva quando há milhões de registos. Nós propomo-nos a implementar um otimizador que irá ser incorporado no CLEENEX, uma ferramenta de investigação de limpeza de dados. Este otimizador irá escolher o algoritmo que melhor se adequa à execução de uma dada operação de dados. Considera-se um algoritmo como o mais adequado quando este nos garante o melhor trade-off possível entre performance e qualidade dos resultados., en=As a result of an always-online modern world, large amounts of data are being collected every second. However, some of that data is dirty and needs to be cleaned by a data cleaning tool. Therefore, data cleaning tools need to be able to process large amounts of data with a good performance and effectiveness. Maintaining the performance and effectiveness for large amounts of data is difficult because these tools rely on complex algorithms to perform data cleaning tasks. For example, the naïve implementation of the approximate duplicate detection task has a quadratic complexity - unfeasible when there are millions of records. We propose to implement an optimizer to be incorporated in CLEENEX, a data cleaning research prototype. The optimizer will choose the best-suited algorithms to perform each data operation. The algorithm is selected based on the best trade-off between performance and quality of results.}
Keywords: {pt=Limpeza de Dados, Optimização de Queries, Base de Dados Relacionais, Deteção de Duplicados Aproximados, Otimização de Performance, en=Data Cleaning, Query Optimization, Relational Databases, Approximate Duplicate Detection, Performance Optimization}

Discussão: novembro 20, 2020, 11:0