Dissertação

Gazetteer Record Linkage REVISION

Esta tese de mestrado procura resolver o problema da detecção de entradas de gazetteer duplicadas, através da combinação de várias métricas de similiaridade, calculadas com base na informação disponível em cada campo destas entradas. Estes campos contêm informação relativa aos nomes, ao tipo, marcas geo-temporais e relações com outros locais. Depois de calcular as várias métricas de similiaridade, é possível utilizar técnicas de aprendizagem automática de forma a construir modelos capazes de estimar se um par de entradas é um duplicado. Esta tese de mestrado utilizou uma quantidade elevada de métricas de similiaridade para os vários campos destas entradas, bem como o uso de Support Vector Machines, Alternating Decision Trees e Random Forests de forma a classificar os pares de entradas. Durante as experiências, foi possível provar que o uso de classificadores baseados em Random Forests obteve os melhores resultados, apesar da diferença para os restantes métodos de classificação ser marginal. Foi também possível provar que usando somente as marcas geoespaciais ou os nomes dos locais, poderiamos treinar um classificador que obteria resultados quase tão bons como se usasse todas as características. Verificámos ainda que características oferecem o maior ganho de informação, concluindo que estas estão geralmente relacionadas com os nomes do local e com as marcas geoespaciais. Por fim, experimentou-se o uso de pré-filtros, de forma a melhorar a eficiência do processo através da redução do número de comparações. Os resultados mostram que é possível manter uma boa exactidão na classificação com o uso de técnicas de filtragem.
Detecção de Duplicados, Dados de Gazetteer, Aprendizagem Automática

Maio 31, 2012, 13:0

Documentos da dissertação ainda não disponíveis publicamente

Orientação

CO-ORIENTADOR

Bruno Emanuel Da Graça Martins

Departamento de Engenharia Informática (DEI)

Professor Auxiliar

ORIENTADOR

Helena Isabel De Jesus Galhardas

Departamento de Engenharia Informática (DEI)

Professor Auxiliar