Dissertação
Optimization of Data Cleaning Programs EVALUATED
Derivado de um mundo totalmente conectado à internet, são recolhidas grandes quantidades de dados a cada segundo. Contudo, grande parte destes dados estão corrompidos, carecendo de tratamento por parte de uma ferramenta de limpeza de dados. Assim sendo, as ferramentas de limpeza de dados precisam de ter a capacidade de processar grandes quantidades de dados de forma eficaz e rápida. No entanto, manter a performance e eficácia é algo não trivial. Estas ferramentas dependem de algoritmos complexos para realizar as tarefas que permitem limpar os dados. Por exemplo, a implementação naïve da deteção de duplicados aproximados tem uma complexidade quadrática - proibitiva quando há milhões de registos. Nós propomo-nos a implementar um otimizador que irá ser incorporado no CLEENEX, uma ferramenta de investigação de limpeza de dados. Este otimizador irá escolher o algoritmo que melhor se adequa à execução de uma dada operação de dados. Considera-se um algoritmo como o mais adequado quando este nos garante o melhor trade-off possível entre performance e qualidade dos resultados.
novembro 20, 2020, 11:0
Publicação
Obra sujeita a Direitos de Autor
Orientação
ORIENTADOR
Helena Isabel De Jesus Galhardas
Departamento de Engenharia Informática (DEI)
Professor Associado