Dissertação

Adivinhador de palavras desconhecidas EVALUATED

A STRING é uma cadeia de Processamento de Língua Natural para Português desenvolvida no L2F do INESC-ID Lisboa. O LexMan é o módulo da cadeia responsável por realizar a segmentação e a análise morfológica. Este trabalho tem como objetivo melhorar o módulo do LexMan responsável por atribuir pares (lema + etiqueta) corretos aos segmentos que não se encontram dicionarizados, o Adivinhador. De uma forma geral, este trabalho reduz o tempo de processamento do LexMan, principalmente em textos de grandes dimensões e melhora a precisão na atribuição dos pares (lema + etiqueta) às palavras desconhecidas. Foram desenvolvidas e avaliadas as alterações à arquitetura original do módulo Adivinhador, tendo-se logo obtido melhores resultados relativamente ao tempo de processamento. Para a nova versão do Adivinhador foram também desenvolvidos e avaliados 4 novos módulos que geram alternativas para as palavras desconhecidas com base em estratégias diferentes das utilizadas na solução inicial. Dos módulos adicionados, dois vieram resolver problemas relacionados com a falta de um hífen entre duas palavras e erros de origem fonética. Um terceiro módulo gera alternativas para as palavras desconhecidas independentemente do tipo de erro, recorrendo ao número de edições entre a forma da palavra desconhecida e forma da alternativa gerada e a trigramas de palavras. O outro módulo adicionado permitiu a seleção da alternativa mais adequada quando existe mais do que uma dicionarizada.
Processamento de Língua Natural, Análise Morfológica, Adivinhador de Palavras Desconhecidas, Modelos de Markov

Novembro 20, 2018, 9:0

Documentos da dissertação ainda não disponíveis publicamente

Orientação

ORIENTADOR

Nuno João Neves Mamede

Departamento de Engenharia Informática (DEI)

Professor Associado

ORIENTADOR

Jorge Manuel Evangelista Baptista

Universidade do Algarve

Professor Associado