Dissertação

{en_GB=Event Identification in STRING} {} EVALUATED

{pt=Identificação de eventos em textos é uma tarefa importante no PLN, pois permite a extração de informação de um modo estruturado, o que pode ter múltiplas aplicações nas actividades de sumarização automática e de reconhecimento de eventos. Este trabalho foca-se na expansão e melhoramento da tarefa de identificação de eventos na cadeia STRING (Statistical and Rule-Based Natural Language Processing), desenvolvida no Laboratório de de Sistemas de Língua Falada (L2F) do Instituto de Engenharia de Sistemas e Computadores - Investigação e Desenvolvimento em Lisboa (INESC-ID). O documento apresenta as descrições de sete tipos de eventos que foram desenvolvidos: Crime, Trial, Prision, Location Static, Location Visit, Public e Ephemerid, os critério que determinam quando uma situação é considerada como sendo um evento e que relações podem ser extraídas de modo a revelar informação interessante. As capacidades de identificação de eventos e de relações, para os eventos corretamente identificados pela nova implementação, foram avaliadas através da utilização de um conjunto de 50 frases por evento (350 no total), extraidas do corpus não anotado dos registos do Parlamento Português. Cada conjunto foi executado pelo sistema original e a implementação a fim de determinar o desempenho da implementação. A avaliação da identificação de eventos resultou uma medida-f total de 51\%, revelando uma subida de 39% do sistema original, enquanto que a avaliação da identificação de relações resultou numa medida-f total de 74\%, no qual não foram contadas as avaliações dos eventos de Visit e Public devido a uma falta de eventos corretamente identificados., en=Event identification in texts is an important task in Natural Language Processing (NLP), as it allows for the extraction of information in a structured way, which can have multiple applications in automatic summarization an event reconnaissance. This work is focused on the expansion and improvement of the task of event identification in the STRING chain (Statistical and Rule-Based Natural Language Processing), developed at the Laboratory for Spoken Language Systems (L2F) of the Institute of Systems Engineering and Computers Research and Development in Lisbon (INESC-ID). This document presents the descriptions of seven types of events that were developed: Crime, Trial, Prision, Location Static, Location Visit, Public and Ephemerid, the criteria that determine when a situation is considered an event and which relations can be extracted in order to reveal interesting information. The capabilities for event identification and relation identification, for the correctly identified events, were evaluated through the use of a set of 50 sentences per event (350 total), extracted from a non-annotated corpus of the recordings of the Portuguese Parliament. Each set was run through the original and modified systems in order to determine the performance of the implementation. The evaluation of event identification yielded a total f-measure of 51\%, revealing an improvement of 39% from the original system, while the evaluation of relation identification yielded an overall f-measure of 74\% from which the events of Visit and Public were not accounted for due to a lack of correctly identified events to evaluate.}
{pt=Processamento de Lingua Natural, Identificação de Eventos, Identificação Baseada em Regras, Português, en=Natural Language Processing, Event Identification, Rule Based Identification, Portuguese}

Novembro 6, 2018, 9:0

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Nuno João Neves Mamede

Departamento de Engenharia Informática (DEI)

Professor Associado

ORIENTADOR

Jorge Manuel Evangelista Baptista

Universidade do Algarve

Professor Associado