Dissertação

{pt_PT=Keyphrase Extraction and Geospatial Characterizations for the Usage of Keyphrases} {} EVALUATED

{pt= A extracção de palavras chaves é uma tarefa importante no processamento de lingua natural. Palavras chaves podem, por exemplo, facilitar o processo de resumir uma colecção de documentos ao descreverem cada documento com concisão. Adicionalmente, estas facilitam o processo de visualização de padrões que existem em documentos textuais, além de facilitar outras tarefas, como categorização, agrupamento, indexação e pesquisa. Este projecto avança uma proposta para um novo método não supervisionado para a extracção de palavras chave, combinando uma abordagem baseada em medidas de centralidade sobre um grafo ponderado com técnicas de modelos linguísticos. O novo método avança uma combinação inovadora de diferentes abordagens para estimar a importância de uma palavra chave e o grau da relação semântica entre candidatos a palavras chave. O novo método incorporou ainda técnicas utilizadas para estimar o grau de autocorrelação espacial no uso de palavras chave, tendo como objectivo a captura da palavras chave candidata com padrões de distribuição espacial interessantes (por exemplo, palavras chaves específicas de uma dada região). Testamos os novos métodos em três corpora diferentes frequentemente usados para avaliar os métodos de extracção de palavras chave. Os resultados da avaliação indicam que os resultados obtidos com o novo método aproximam e, em alguns casos, superam os resultados obtidos por outros métodos estado-da-arte para extracção de palavras chave., en=Keyphrase extraction is an important task in natural language processing. Keyphrases can, for instance, ease the process of summarizing a collection of documents by concisely describing each document. Furthermore, they facilitate the process of visualizing patterns that exist in textual documents, in addition to facilitating other tasks such as, categorization, clustering, indexing and searching. There are two main categories of automatic keyphrase extraction methods: the supervised approach that relies on training data, and the unsupervised method which tries to infer keyphrase relevance from statistics directly collected from a dataset. This project advances a proposal for a novel unsupervised method for keyphrase extraction, combining an approach based on centrality over a weighted graph with language modeling techniques. The new method will thus leverage an innovative combination of different approaches for estimating the importance of a keyphrase and the strength of the semantic relation between candidate keyphrases. Techniques used to estimate the degree of spatial auto-correlation in the usage of keyphrases were also incorporated into the new method, the goal being the capture of candidate keyphrase with interesting spatial distribution patterns (e.g., that are specific to a particular region). We tested the new methods on three different corpora commonly used for evaluating keyphrase extraction methods. The evaluation results indicate that this technique can approximate (and in some cases surpass) the results obtained by other state-of-the-art keyphrase extraction methods.}
{pt=Extracção de palavras chaves, Medidas de centralidade, Modelos linguísticos, I de Moran, Heurísticas e extração de palavras chaves, Embeddings de palavras, en=Keyphrase extraction, Graph centrality, Language models, Moran's I, Heuristics for keyphrase extraction, Word embeddings}

outubro 31, 2017, 16:30

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Bruno Emanuel Da Graça Martins

Departamento de Engenharia Informática (DEI)

Professor Auxiliar

ORIENTADOR

Miguel Daiyen Carvalho Won

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Prof Auxiliar Convidado