Dissertação

Dependência dos Tipos na Detecção de Duplicados em Bases de Dados XML EVALUATED

O problema da detecção de duplicados numa base de dados é o de detectar objectos, que embora não tenham a mesma representação conceptual, representam o mesmo objecto na realidade. Uma grande parte dos métodos de detecção de duplicados existentes, utiliza o conteúdo dos elementos dos tuplos para realizar a detecção. Para comparar este conteúdo são utilizadas métricas de similaridade. Como existem vários tipos de métricas com comportamentos diferentes e os os tuplos de uma base de dados são constituídos normalmente por tipos com características diferentes, importa saber quais as métricas mais adequadas a quais tipos. Neste trabalho, numa primeira fase, demonstramos que o tipo de métricas utilizado em cada tipo de uma base de dados, influência os resultados na detecção de duplicados. Demonstramos ainda que a escolha da métrica a aplicar a cada tipo, depende das características desse tipo e da estrutura da base de dados. Posteriormente, desenvolvemos um método que determina automaticamente uma configuração de métricas para uma determinada base de dados. Esta configuração é conseguida de forma a obter valores de R-Precision óptimos ou quase óptimos. O método é independente do domínio, tendo sido experimentado em bases de dados de dois domínios diferentes. Verificaram-se resultados melhores do que os conseguidos por configurações obtidas manualmente, tendo estes resultados sido obtidos com um número de iterações pequeno, relativamente ao espaço de soluções. O método permite que o esforço para encontrar uma configuração de métricas, seja menor do que o de um processo manual de teste de combinações de métricas.
Detecção de Duplicados, Métricas de Similaridade, Tipos de Atributos, Bases de Dados, XML

Novembro 17, 2009, 14:45

Documentos da dissertação ainda não disponíveis publicamente

Orientação

ORIENTADOR

Pável Pereira Calado

Departamento de Engenharia Informática (DEI)

Professor Auxiliar