Dissertação

{en_GB=Extraction, Attribution, and Classification of Quotations in Newspaper Articles} {} EVALUATED

{pt=O discurso indirecto é uma parte crucial em artigos de notícias, que frequentemente dependem de citações para relatar as perspectivas e opiniões dos participantes nos eventos narrados. A capacidade de extrair e organizar com precisão estas citações é altamente relevante para aplicações de prospecção de texto com o objetivo de reduzir a intervenção humana na monitorização dos media, ajudar os jornalistas a verificar factos, ou ajudar exploradores dos media e usuários em geral a procurar notícias. Estudos anteriores abordaram a extração de discurso indirecto em artigos de notícias, embora muitas vezes tivessem limitado o estudo apenas a citações diretas e/ou utilizando métodos relativamente simples fortemente dependentes de regras pré-definidas. Este trabalho extende estudos anteriores em várias direções, avaliando a aplicação de métodos modernos de aprendizagem profunda para extração de citações (i.e., para delimitar ocorrências de citações diretas, indirectas, ou combinadas), atribuição (i.e., para atribuir citações aos seu autores correspondentes, mencionados nas vizinhanças do texto), e classificação (i.e., para atribuir às citações pontuações numéricas que codificam a valência e intensidade emocional). Aspectos particularmente inovadores incluem o uso de Nested-LSTMs, em oposição a Redes Neuronais Recorrentes (RNRs) mais comuns, ou a associação de citações aos seus valores de valência e intensidade emocional. Resultados experimentais mostram que arquiteturas neuronais relativamente simples, baseadas em RNRs, podem obter resultados muito positivos em todas as três tarefas acima mencionadas, superando resultados anteriormente relatados., en=Reported speech is a crucial part of news articles, which frequently rely on quotations to report on the perspectives and opinions of direct participants in the narrated events. The ability to accurately extract and organize these quotations is highly relevant for text mining applications aiming to reduce human intervention in media monitoring, help journalists in fact-checking, or aid media scholars and general users to browse the news. Several previous studies have addressed the extraction of reported speech from news articles, although often addressing only direct quotations and/or using relatively simple methods relying heavily on hand-crafted features. This article extends these previous studies in several directions, evaluating the application of modern deep learning methods for quotation extraction (i.e., for delimiting occurrences of direct, indirect, and mixed quotations), attribution (i.e., for assigning quotations to the corresponding authors, as mentioned in the surrounding text), and classification (i.e., for assigning quotations to numerical scores encoding emotional valence and intensity). Particularly innovative aspects include the use of Nested-LSTMs, as opposed to more common Recurrent Neural Networks (RNNs), or the association of quotations to emotional valence and intensity. Experimental results show that relatively simple neural architectures, based on RNNs, can achieve very good results in all three aforementioned tasks, outperforming previously reported results.}
{pt=Prospecção de Texto, Monitorização dos Media, Aprendizagem Profunda para PLN, Extracção de Discurso Reportado, Detecção de Emoções, en=Text Mining, Media Monitoring, Deep Learning for NLP, Mining Reported Speech, Emotion Detection}

Outubro 30, 2018, 16:30

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Bruno Emanuel Da Graça Martins

Departamento de Engenharia Informática (DEI)

Professor Auxiliar

ORIENTADOR

Henrique Daniel de Avelar Lopes Cardoso

Faculdade de Engenharia da Universidade do Porto

Professor Auxiliar