FenixEdu™

Dissertação

{en_GB=Enrichment of Location Databases} {} EVALUATED

Detalhes: {pt=Atualmente com a grande quantidade de dados disponíveis online existe uma necessidade crescente de integrar diferentes tipos de dados num sistema único, especialmente num contexto geográfico. Ferramentas que integram tanto informação geográfica como dados relacionados com entidades já existem, contudo a informação que contém muitas vezes não é confiável, não está atualizada ou é de acesso restrito. Por isso, neste trabalho, propomos um método para enriquecer bases de dados de localização com informação relacionada com as suas entidades. O nosso trabalho foca-se em dois problemas, extração web e classificação, por isso baseamos a nossa arquitetura em trabalhos destas áreas. O sistema foi construído com informação do projeto OpenStreetMap e usa várias técnicas de web scraping e slot filling de forma a extrair os atributos de uma entidade da Web e a combiná-los numa única ferramenta. Para assegurar que a informação é atual e confiável, o sistema extrai os dados de cada entidade dos seus websites oficiais. Esses dados são então processados pelo sistema, que usa técnicas baseadas em expressões regulares, modelos de língua e aprendizagem automática para classificar cada possível valor de atributo encontrado. A avaliação do sistema é feita através de métricas como Precision, Recall e F-measure. Os nossos resultados mostram que o sistema proposto obtém melhores resultados ao usar expressões regulares ou ao usar uma abordagem mista de expressões regulares e aprendizagem automática, dependendo do atributo., en=Nowadays, with the massive amount of data available online, there is a growing need to integrate different types of data into unified systems, specifically in a geographical context. Integrated tools that provide both geographical and entity related data already exist, however, the information they contain is often unreliable, not current or has restricted access. Therefore, in this work, we propose a method to enrich current location databases with information related to their entities. Our work concerns two problems, web extraction and classification, so we base our architecture on studies of those fields. The system was built with the OpenStreetMap project's data and uses several web scraping and slot filling methods, in order to extract an entity's attributes from the Web and gather them in a single information tool. To ensure the data is current and trustworthy, the system extracts each entity's information from its official website. This data is then processed by the system, which uses regular expressions, language models and machine learning techniques to classify each possible attribute value. The system's evaluation is done with metrics, such as Precision, Recall and F-measure. Our results show that the proposed system performs better when using regular expressions or a mixed approach of regular expressions and machine learning algorithms, depending on the attribute.}
Keywords: {pt=Web Scraping, Slot Filling, Processamento de Língua Natural, Sistemas de Informação Geográfica, OpenStreetMap, en=Web Scraping, Slot Filling, Natural Language Processing, Geographical Information System, OpenStreetMap}

Discussão: janeiro 25, 2021, 13:0