FenixEdu™

Dissertação

Portuguese Verb Sense Disambiguation Using Parallel Corpus EVALUATED

Detalhes: A ambiguidade semântica é um fenómeno linguístico muito frequente em textos e tem um forte impacto em várias tarefas de diferentes áreas do Processamento de Língua Natural, como a Tradução Automática (Machine Translation), em que é importante identificar o sentido específico de uma palavra com base no seu contexto. Este processo designa-se por Desambiguação Automática de Sentido em inglês "Word Sense Disambiguation" (WSD). Normalmente, grandes quantidades de texto anotado são necessárias para construir o corpus de treino a ser usado nos sistemas estatísticos de WSD. Infelizmente, esses corpora são escassos em várias línguas e a sua produção é dispendiosa e muito demorada. Este trabalho apresenta uma abordagem para gerar de forma semi-automática um corpus de treino anotado com os sentidos dos verbos, que possa ser usado com técnicas de Aprendizagem Automática na tarefa de WSD. Para este propósito, é utilizada a cadeia de processamento de língua natural STRING. A anotação do corpus de treino é baseada na desambiguação feita utilizando corpora de textos paralelos em vários pares de línguas. Esta dissertação descreve as experiências realizadas, bem como a geração dos novos ficheiros de treino produzidos no âmbito de uma abordagem à tarefa de WSD utilizando Aprendizagem Automática. Esta abordagem é avaliada a partir de comparações com uma baseline, que consiste em usar apenas o Sentido Mais Frequente (MFS) para desambiguar o sentido dos verbos, e é aplicada a um pequeno número de verbos, cuja ambiguidade tem um forte impacto na ambiguidade global do corpus de referência.
Keywords: Processamento de Língua Natural, Desambiguação de Sentido de Verbos, Corpora Paralelo Multilingue

Discussão: julho 20, 2018, 16:0