Dissertação
Gazetteer Record Linkage REVISION
Esta tese de mestrado procura resolver o problema da detecção de entradas de gazetteer duplicadas, através da combinação de várias métricas de similiaridade, calculadas com base na informação disponível em cada campo destas entradas. Estes campos contêm informação relativa aos nomes, ao tipo, marcas geo-temporais e relações com outros locais. Depois de calcular as várias métricas de similiaridade, é possível utilizar técnicas de aprendizagem automática de forma a construir modelos capazes de estimar se um par de entradas é um duplicado. Esta tese de mestrado utilizou uma quantidade elevada de métricas de similiaridade para os vários campos destas entradas, bem como o uso de Support Vector Machines, Alternating Decision Trees e Random Forests de forma a classificar os pares de entradas. Durante as experiências, foi possível provar que o uso de classificadores baseados em Random Forests obteve os melhores resultados, apesar da diferença para os restantes métodos de classificação ser marginal. Foi também possível provar que usando somente as marcas geoespaciais ou os nomes dos locais, poderiamos treinar um classificador que obteria resultados quase tão bons como se usasse todas as características. Verificámos ainda que características oferecem o maior ganho de informação, concluindo que estas estão geralmente relacionadas com os nomes do local e com as marcas geoespaciais. Por fim, experimentou-se o uso de pré-filtros, de forma a melhorar a eficiência do processo através da redução do número de comparações. Os resultados mostram que é possível manter uma boa exactidão na classificação com o uso de técnicas de filtragem.
maio 31, 2012, 13:0
Documentos da dissertação ainda não disponíveis publicamente
Orientação
CO-ORIENTADOR
Bruno Emanuel Da Graça Martins
Departamento de Engenharia Informática (DEI)
Professor Auxiliar
ORIENTADOR
Helena Isabel De Jesus Galhardas
Departamento de Engenharia Informática (DEI)
Professor Auxiliar