Dissertação

{pt_PT=Automatically Georeferencing Textual Documents } {} EVALUATED

{pt=No contexto da minha tese de mestrado, avaliei empiricamente, técnicas automáticas, baseadas numa representação hierárquica da superfície terrestre, para atribuir coordenadas de latitude e longitude a documentos, usando apenas o seu texto. Sabendo que os seres humanos podem utilizar uma variedade de construções linguísticas para comunicar informação geoespacial, eu tentei medir até que ponto diferentes tipos (i.e., nomes de locais ou outros termos textuais) e/ou diferentes fontes de conteúdo textual (i.e., fontes como a Wikipédia ou conteúdos gerais da Web), podem influenciar os resultados obtidos pelos métodos automáticos de geocodificação. Os resultados obtidos confirmam que termos textuais comuns, para além de nomes de locais, também podem ser altamente geo-indicativos. Para além disso, texto de fontes gerais da Web pode ser usado para melhorar os resultados obtidos por métodos de geocodificação automática dos documentos da Wikipédia. Obtiveram-se resultados de acordo com o estado-da-arte da geocoficação de documentos da Wikipédia, nomeadamente um erro médio de 88 Kilómetros e um erro mediano de 8 Kilómetros, para o caso das experiências da Wikipédia Inglesa, juntamente com o texto de âncoras hipertextuais e o seu contexto envolvente. Relativamente às experiências com os documentos da Wikipédia Alemã, Espanhola e Portuguesa, para os quais existem menos dados, retirados apenas da Wikipédia, o mesmo método obteve erros médios de 62, 166 e 105 Kilómetros, respetivamente, e erros medianos de 5, 13 e 21 Kilómetros. , en=In the context of my M.Sc. thesis, I empirically evaluated automated techniques, based on a hierarchical representation for the Earth’s surface and leveraging linear classifiers, for assigning geospatial coordinates of latitude and longitude to previously unseen documents, using only the raw text as input evidence. Noting that humans may rely on a variety of linguistic constructs to communicate geospatial information, I attempted to measure the extent to which different types (i.e., place names versus other textual terms) and/or sources of textual content (i.e., curated sources like Wikipedia, versus general Web contents) can influence the results obtained by automated document geocoding methods. The obtained results confirm that general textual terms, besides place names, can also be highly geo-indicative. Moreover, text from general Web sources can be used to increase the performance of models based on curated text. The best performing models obtained state-of-the-art results, corresponding to an average prediction error of 88 Kilometers, and a median error of just 8 Kilometers, in the case of experiments with English documents and when leveraging Wikipedia contents together with data from hypertext anchors and their surrounding contexts. In experiments with German, Spanish and Portuguese documents, for which I had significantly less data taken only from Wikipedia, the same method obtains average prediction errors of 62, 166 and 105 Kilometers, respectively, and median prediction errors of 5, 13, or 21 Kilometers.}
{pt=Geocodificação de Documentos, Processamento de Linguagem Natural, Classificação Textual Hierárquica, Processamento de Linguagem Geoespacial, Geo-Indicatividade de Conteúdos Textuais, en=Document Geocoding, Natural Language Processing, Hierarchical Text Classification, Processing Geospatial Language, Geo-Indicativeness of Textual Contents}

junho 5, 2015, 9:0

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Bruno Emanuel Da Graça Martins

Departamento de Engenharia Informática (DEI)

Professor Auxiliar