Dissertação

{en_GB=Portuguese Verb Sense Disambiguation Using Parallel Corpus } {} EVALUATED

{pt=A ambiguidade semântica é um fenómeno linguístico muito frequente em textos e tem um forte impacto em várias tarefas de diferentes áreas do Processamento de Língua Natural, como a Tradução Automática (Machine Translation), em que é importante identificar o sentido específico de uma palavra com base no seu contexto. Este processo designa-se por Desambiguação Automática de Sentido em inglês "Word Sense Disambiguation" (WSD). Normalmente, grandes quantidades de texto anotado são necessárias para construir o corpus de treino a ser usado nos sistemas estatísticos de WSD. Infelizmente, esses corpora são escassos em várias línguas e a sua produção é dispendiosa e muito demorada. Este trabalho apresenta uma abordagem para gerar de forma semi-automática um corpus de treino anotado com os sentidos dos verbos, que possa ser usado com técnicas de Aprendizagem Automática na tarefa de WSD. Para este propósito, é utilizada a cadeia de processamento de língua natural STRING. A anotação do corpus de treino é baseada na desambiguação feita utilizando corpora de textos paralelos em vários pares de línguas. Esta dissertação descreve as experiências realizadas, bem como a geração dos novos ficheiros de treino produzidos no âmbito de uma abordagem à tarefa de WSD utilizando Aprendizagem Automática. Esta abordagem é avaliada a partir de comparações com uma baseline, que consiste em usar apenas o Sentido Mais Frequente (MFS) para desambiguar o sentido dos verbos, e é aplicada a um pequeno número de verbos, cuja ambiguidade tem um forte impacto na ambiguidade global do corpus de referência., en=Semantic ambiguity is a very frequent linguistic phenomenon in texts and it has a strong impact in many tasks pertaining to various fields of Natural Language Processing (NLP), such as Machine Translation, where it is important to identify the specific meaning of a word based on its context. This process is called Word Sense Disambiguation (WSD). Normally, large quantities of annotated text are required to build the training corpus used in statistically-based WSD systems. Unfortunately, these corpora are scarce for many languages and their production is expensive and very time-consuming. This work presents an approach to semi-automatically generate a training corpus annotated with the meanings of the verbs, to be used with Machine Learning (ML) techniques in the WSD task. For this purpose, the Portuguese processing chain STRING is used. The annotation of training corpus is based on the disambiguation resulting from corpora of parallel texts in various pairs of languages. This dissertation describes the experiments made, as well as the generation of new training files produced within the scope of a ML approach to WSD. This approach is evaluated against a baseline that uses the Most Frequent Sense (MFS) to disambiguate between verb senses and it is applied to a small range of verbs, whose ambiguity has a strong impact on the global ambiguity of the reference corpus.}
{pt=Processamento de Língua Natural, Desambiguação de Sentido de Verbos, Corpora Paralelo Multilingue, en=Natural Language Processing, Verb Sense Disambiguation, Multilingual Parallel Corpora}

Julho 20, 2018, 16:0

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Nuno João Neves Mamede

Departamento de Engenharia Informática (DEI)

Professor Associado

ORIENTADOR

Jorge Manuel Evangelista Baptista

Universidade do Algarve

Professor Associado