Dissertação

{en_GB=Toponym Resolution in Text} {} EVALUATED

{pt=A resolução de topónimos em texto, onde um topónimo se refere a um nome de local ou a uma referência de local, consiste na desambiguação destas referências, associando-as a uma localização única sobre a superfície da Terra (através da atribuição de coordenadas latitude e longitude). Dado que os nomes dos locais são altamente ambíguos esta tarefa é bastante desafiante. Existem várias aplicações que podem beneficiar dos resultados da resolução de topónimos, incluindo o apoio ao processamento e análise de informação geográfica em coleções extensas de documentos, assim como o suporte à geolocalização de documentos. Este trabalho visa a análise de estudos desenvolvidos anteriormente, assim como o desenvolvimento de um modelo para a resolução de topónimos considerando técnicas do estado-da-arte. A arquitetura de rede neural proposta utiliza unidades recorrentes com múltiplas entradas (o topónimo a ser desambiguado juntamente com as palavras adjacentes), aproveitando especificamente incorporações de palavras contextuais pré-treinadas (incorporações ELMo ou BERT) e unidades bidirecionais de Long Short-Term Memory (LSTM), ambas muito utilizadas para a modelação de dados textuais. Adicionalmente, o modelo proposto foi avaliado em diferentes contextos, (i) usando informações externas extraídas de dados rasterizados com informações geofísicas, incluindo cobertura terrestre, elevação do terreno, entre outras, e (ii) usando dados adicionais de artigos da Wikipédia em inglês para treinar o modelo com o objetivo de guiar e ajudar durante o treino. Os resultados obtidos mostram uma qualidade superior do método proposto, em comparação com abordagens anteriores, particularmente no cenário que envolve incorporações BERT juntamente com a adição de dados., en=Toponym resolution in text, where toponym refers to a place name or place reference, consists in the disambiguation of these references, by associating them to a unique location over the surface of the Earth (e.g., through the assignment of latitude and longitude coordinates). Given that place names are highly ambiguous, the toponym resolution is a challenging task. There are several possible applications that can benefit from the results of toponym resolution, which includes the support of the processing and analysis of geographic information present in collections of large documents, as well as the support of document geolocation. This research aims to analyze the studies developed in the area, as well as the development of a model for the toponym resolution considering state-of-the-art techniques applied to natural language processing. The proposed neural network architecture uses recurrent units with multiple inputs (e.g., the toponym to disambiguate along with the surrounding words), leveraging pre-trained contextual word embeddings (i.e., ELMo or BERT embeddings) and bi-directional Long Short-Term Memory (LSTM) units, both commonly used for textual data modeling. Additionally, the proposed model was evaluated in different contexts, (i) using external information extracted from raster data with geophysical information, including land cover, terrain elevation, among others, and (ii) using additional data from English Wikipedia articles to train the model, to guide and help during the model training. The obtained results show a significantly higher quality of the proposed method, in comparison to previous approaches and particularly in the setting that involves BERT embeddings and additional data.}
{pt=Análise geográfica de texto, Resolução de topónimos em texto, Aprendizagem profunda para PLN, Redes neuronais recorrentes, Representações contextuais de palavras, Propriedades geofísicas, en=Geographical text analysis, Toponym resolution in text, Deep learning for NLP, Recurrent neural networks, Contextual word embedding representations, Geophysical properties}

Novembro 27, 2019, 9:0

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Bruno Emanuel Da Graça Martins

Departamento de Engenharia Informática (DEI)

Professor Auxiliar

ORIENTADOR

Jacinto Paulo Simões Estima

Instituto Politécnico de Setúbal

Prof. Ajunto Convidado