Dissertação

Automatically Georeferencing Textual Documents EVALUATED

No contexto da minha tese de mestrado, avaliei empiricamente, técnicas automáticas, baseadas numa representação hierárquica da superfície terrestre, para atribuir coordenadas de latitude e longitude a documentos, usando apenas o seu texto. Sabendo que os seres humanos podem utilizar uma variedade de construções linguísticas para comunicar informação geoespacial, eu tentei medir até que ponto diferentes tipos (i.e., nomes de locais ou outros termos textuais) e/ou diferentes fontes de conteúdo textual (i.e., fontes como a Wikipédia ou conteúdos gerais da Web), podem influenciar os resultados obtidos pelos métodos automáticos de geocodificação. Os resultados obtidos confirmam que termos textuais comuns, para além de nomes de locais, também podem ser altamente geo-indicativos. Para além disso, texto de fontes gerais da Web pode ser usado para melhorar os resultados obtidos por métodos de geocodificação automática dos documentos da Wikipédia. Obtiveram-se resultados de acordo com o estado-da-arte da geocoficação de documentos da Wikipédia, nomeadamente um erro médio de 88 Kilómetros e um erro mediano de 8 Kilómetros, para o caso das experiências da Wikipédia Inglesa, juntamente com o texto de âncoras hipertextuais e o seu contexto envolvente. Relativamente às experiências com os documentos da Wikipédia Alemã, Espanhola e Portuguesa, para os quais existem menos dados, retirados apenas da Wikipédia, o mesmo método obteve erros médios de 62, 166 e 105 Kilómetros, respetivamente, e erros medianos de 5, 13 e 21 Kilómetros.
Geocodificação de Documentos, Processamento de Linguagem Natural, Classificação Textual Hierárquica, Processamento de Linguagem Geoespacial, Geo-Indicatividade de Conteúdos Textuais

junho 5, 2015, 9:0

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Bruno Emanuel Da Graça Martins

Departamento de Engenharia Informática (DEI)

Professor Auxiliar