Dissertação

Portuguese Verb Sense Disambiguation Using Parallel Corpus EVALUATED

A ambiguidade semântica é um fenómeno linguístico muito frequente em textos e tem um forte impacto em várias tarefas de diferentes áreas do Processamento de Língua Natural, como a Tradução Automática (Machine Translation), em que é importante identificar o sentido específico de uma palavra com base no seu contexto. Este processo designa-se por Desambiguação Automática de Sentido em inglês "Word Sense Disambiguation" (WSD). Normalmente, grandes quantidades de texto anotado são necessárias para construir o corpus de treino a ser usado nos sistemas estatísticos de WSD. Infelizmente, esses corpora são escassos em várias línguas e a sua produção é dispendiosa e muito demorada. Este trabalho apresenta uma abordagem para gerar de forma semi-automática um corpus de treino anotado com os sentidos dos verbos, que possa ser usado com técnicas de Aprendizagem Automática na tarefa de WSD. Para este propósito, é utilizada a cadeia de processamento de língua natural STRING. A anotação do corpus de treino é baseada na desambiguação feita utilizando corpora de textos paralelos em vários pares de línguas. Esta dissertação descreve as experiências realizadas, bem como a geração dos novos ficheiros de treino produzidos no âmbito de uma abordagem à tarefa de WSD utilizando Aprendizagem Automática. Esta abordagem é avaliada a partir de comparações com uma baseline, que consiste em usar apenas o Sentido Mais Frequente (MFS) para desambiguar o sentido dos verbos, e é aplicada a um pequeno número de verbos, cuja ambiguidade tem um forte impacto na ambiguidade global do corpus de referência.
Processamento de Língua Natural, Desambiguação de Sentido de Verbos, Corpora Paralelo Multilingue

julho 20, 2018, 16:0

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Nuno João Neves Mamede

Departamento de Engenharia Informática (DEI)

Professor Associado

ORIENTADOR

Jorge Manuel Evangelista Baptista

Universidade do Algarve

Professor Associado