Dissertação

{pt_PT=Adivinhador de palavras desconhecidas} {} EVALUATED

{pt=A STRING é uma cadeia de Processamento de Língua Natural para Português desenvolvida no L2F do INESC-ID Lisboa. O LexMan é o módulo da cadeia responsável por realizar a segmentação e a análise morfológica. Este trabalho tem como objetivo melhorar o módulo do LexMan responsável por atribuir pares (lema + etiqueta) corretos aos segmentos que não se encontram dicionarizados, o Adivinhador. De uma forma geral, este trabalho reduz o tempo de processamento do LexMan, principalmente em textos de grandes dimensões e melhora a precisão na atribuição dos pares (lema + etiqueta) às palavras desconhecidas. Foram desenvolvidas e avaliadas as alterações à arquitetura original do módulo Adivinhador, tendo-se logo obtido melhores resultados relativamente ao tempo de processamento. Para a nova versão do Adivinhador foram também desenvolvidos e avaliados 4 novos módulos que geram alternativas para as palavras desconhecidas com base em estratégias diferentes das utilizadas na solução inicial. Dos módulos adicionados, dois vieram resolver problemas relacionados com a falta de um hífen entre duas palavras e erros de origem fonética. Um terceiro módulo gera alternativas para as palavras desconhecidas independentemente do tipo de erro, recorrendo ao número de edições entre a forma da palavra desconhecida e forma da alternativa gerada e a trigramas de palavras. O outro módulo adicionado permitiu a seleção da alternativa mais adequada quando existe mais do que uma dicionarizada., en=STRING is a Natural Language Processing (NLP) chain developed at L2F / INESC-ID Lisboa. LexMan is the module responsible to realize the tokenization and morphological analysis. The propose of this work is to improve LexMan submodule, which is responsible for assigning the right pairs (lemma + tag) to words that are not in the LexMan dictionary, the Guesser module. In general, this work reduces the LexMan processing time, mainly when processing big texts and also improve the precision in identifying unknown words. Improvements on the original Guesser architecture were developed and evaluated, these improvements got better results on processing time. For new solution implementation of this module were developed and evaluated four new modules with a propose of generate new alternatives for unknown words and find the correct one. These new modules uses different strategies that had not been implemented on the original solution. Two of these new modules were able to resolve problems related with the lack of a hyphen between two words and other module for problems related with phonetic errors. A third module was developed to generate alternatives for unknown words that are not related with a specific error, for these, the module calculate the editions number between the original word and the alternative word obtained from a second order markov model. Other module was added in order to select the better alternative when other modules generate more than one that are on lexicon.}
{pt=Processamento de Língua Natural, Análise Morfológica, Adivinhador de Palavras Desconhecidas, Modelos de Markov, en=Natural Language Processing, Morphological Analysis, Unknown Words Guesser, Markov Models}

Novembro 20, 2018, 9:0

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Nuno João Neves Mamede

Departamento de Engenharia Informática (DEI)

Professor Associado

ORIENTADOR

Jorge Manuel Evangelista Baptista

Universidade do Algarve

Professor Associado