Dissertação

Enrichment of Location Databases EVALUATED

Atualmente com a grande quantidade de dados disponíveis online existe uma necessidade crescente de integrar diferentes tipos de dados num sistema único, especialmente num contexto geográfico. Ferramentas que integram tanto informação geográfica como dados relacionados com entidades já existem, contudo a informação que contém muitas vezes não é confiável, não está atualizada ou é de acesso restrito. Por isso, neste trabalho, propomos um método para enriquecer bases de dados de localização com informação relacionada com as suas entidades. O nosso trabalho foca-se em dois problemas, extração web e classificação, por isso baseamos a nossa arquitetura em trabalhos destas áreas. O sistema foi construído com informação do projeto OpenStreetMap e usa várias técnicas de web scraping e slot filling de forma a extrair os atributos de uma entidade da Web e a combiná-los numa única ferramenta. Para assegurar que a informação é atual e confiável, o sistema extrai os dados de cada entidade dos seus websites oficiais. Esses dados são então processados pelo sistema, que usa técnicas baseadas em expressões regulares, modelos de língua e aprendizagem automática para classificar cada possível valor de atributo encontrado. A avaliação do sistema é feita através de métricas como Precision, Recall e F-measure. Os nossos resultados mostram que o sistema proposto obtém melhores resultados ao usar expressões regulares ou ao usar uma abordagem mista de expressões regulares e aprendizagem automática, dependendo do atributo.
Web Scraping, Slot Filling, Processamento de Língua Natural, Sistemas de Informação Geográfica, OpenStreetMap

janeiro 25, 2021, 13:0

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Maria Luísa Torres Ribeiro Marques da Silva Coheur

Departamento de Engenharia Informática (DEI)

Professor Associado

ORIENTADOR

Pável Pereira Calado

Departamento de Engenharia Informática (DEI)

Professor Associado