FenixEdu™

Dissertação

Detecção de Duplicados em Bases de Dados XML EVALUATED

Detalhes: A detecção de duplicados consiste em identificar múltiplas representações de objectos do mundo real armazenados numa fonte de dados. Esta é uma tarefa de grande relevância prática na limpeza de dados, data mining ou integração de dados, possuindo um longo percurso no que diz respeito a dados relacionais armazenados numa única tabela (ou em múltiplas tabelas com o mesmo esquema). Os algoritmos para a detecção de duplicados em estruturas mais complexas como, por exemplo, hierarquias de uma data warehouse, dados XML ou dados em grafos só recentemente emergiram. Estes algoritmos usam medidas de similaridade que consideram se os seus vizinhos directos são duplicados, por exemplo, os filhos em modelos de dados hierárquicos, para melhorar a eficácia da detecção de duplicados. Neste trabalho, é proposto um novo método para a detecção de duplicados em dados XML hierárquicos e semi-estruturados. Ao contrário de abordagens anteriores, este método não considera apenas se os filhos são duplicados, mas considera também a probabilidade de todos os descendentes serem duplicados. As probabilidades são calculadas eficientemente usando uma rede Bayesiana. Testes mostram que o algoritmo proposto é capaz de manter valores altos de precisão e recall, mesmo perante dados que contenham uma grande quantidade de erros e informação em falta. O método aqui proposto é ainda capaz de apresentar melhores resultados do que um sistema de detecção de duplicados, que expressa o estado da arte neste domínio, em três bases de dados XML diferentes.
Keywords: XML, Detecção de duplicados, Redes Bayesianas, Bases de dados

Discussão: novembro 2, 2007, 14:0