FenixEdu™

Dissertação

{en_GB=Resolving Named Entities and Relations in Text for Applications in Literary Studies} {} EVALUATED

Detalhes: {pt=Ultimamente, tem-se verificado um aumento do número de textos disponíveis em bibliotecas digitais. Há também um grande interesse em capturar relações semânticas de uma grande quantidade de textos, com o objectivo de realizar tarefas semânticas mais complexas. No entanto, as técnicas de extracção de informação tradicionais têm dificuldade em seguir esta tendência súbita, visto que estas técnicas dependem fortemente de recursos manualmente anotados que irão treinar modelos estatísticos. Esta dissertação teve um objectivo principal: adaptar e avaliar dois sistemas de extracção de relações que seguem um novo paradigma de extracção de informação, geralmente referido como Extracção de Informação em Domínio Aberto, a fim de extrair as relações de textos pertencentes à literatura Portuguesa. Esta nova técnica de extracção de informação é capaz de se adaptar a uma grande quantidade de textos, sem necessitar de tanto envolvimento humano quanto as técnicas tradicionais. Os dois sistemas em foco são denominados por ReVerb e OLLIE. Muitas tarefas foram abordadas a fim de obter os resultados apresentados presentes neste documento, começando com o desenvolvimento de modelos de Processamento de Língua Natural para processar textos portugueses, seguido depois pela incorporação destes modelos nas duas ferramentas mencionadas. Finalmente foram realizadas modificações relacionadas com detalhes específicos de implementação, resultando assim em dois sistemas adaptados que são capazes de processar textos em Português. Este documento formaliza as abordagens em problemas de extracção de relações, envolvendo o novo paradigma de Extracção de Informação em Domínio Aberto sobre textos literários, apresentando uma extensa avaliação com quatro livros de diferentes autores., en=Lately, there has been an increase of texts available in digital libraries. There is also an increased interest in capturing semantic relations expressed between entities from a large amount of texts, hoping to conduct more complex semantic tasks, such as question answering. However, traditional information extraction techniques have a hard time following this sudden trend, as these techniques rely heavily on manually annotated resources for training statistical models. This research work had one main objective: to adapt and evaluate two relation extraction systems that follow a new Information Extraction paradigm, usually referred to as Open-Domain Information Extraction (OIE), in order to extract relations from Portuguese literary texts. This new information extraction technique is able to scale to a massive amount of texts, without requiring as much human involvement. The two systems in focus are named ReVerb and OLLIE. Many tasks were addressed in order to obtain the results presented in this document, starting with the development of NLP models to process Portuguese texts, followed by the incorporation of these models into the OIE tools, and further changes in implementation details, resulting in two adapted systems that are able to process Portuguese texts. This document, therefore, formalizes the approaches in the relation extraction problems, involving the new OIE paradigm on literary texts, presenting an extensive evaluation with four different literary books.}
Keywords: {pt=Prospecção de Texto, Extracção de Informação em Domínio Aberto, Extracção de Relações, Processamento de Língua Natural., en=Text Mining, Open-Domain Information Extraction, Relation Extraction, Natural Language Processing.}

Discussão: maio 31, 2016, 9:0