FenixEdu™

Dissertação

{en_GB=Suffix Identification in Portuguese using Transducers} {} EVALUATED

Detalhes: {pt=A STRING é uma cadeia de Processamento de Língua Natural desenvolvida pelo L2F/INESC-ID Lisboa, capaz de indentificar palavras prefixadas e palavras base (sem afixos). Esta dissertação resolve o problema da identificação automática de palavras sufixadas (ex. `gatinho'=`gato'+`inho') em textos e oferece também alguns melhoramentos na categorização de palavras desconhecidas. Foi desenvolvido um Gerador de Palavras Sufixação, que funciona como um novo submódulo do LexMan, o anlisador morfológico da STRING baseado em transdutores. A arquitetura deste submódulo é baseada numa abordagem de Mofologia em Dois Níveis, que envolve combinar um léxico de lemas com um conjunto de paradigmas flexionais e, em conjunto, gerar palavras sufixadas. Até agora foram desenvolvidos paradigmas para sete dos sufixos mais produtivos no Português: os sufixos diminutivos-inho e -ito, os superlativos -íssimo e -érrimo, sufixo adverbial-mente, o sufixo adjetival -vel e o correspondente sufixo nominal -bilidade. Este trabalho também resolve também parte do problema de atribuição de categoria gramatical a palavras desconhecidas, isto é, palavras que não se encontram no léxico. O Adivinhador do LexMan foi modificado para tratar especificamente de dois casos: compostos nome-nome e palavras com erros em acentos. O desempenho das soluções foi avaliado e comparado com os resultados originais do LexMan. O novo módulo de geração de palavras sufixadas produziu apenas um incremento de tempo constante nas operações do transdutor, que quase não tem impacto no número de palavras processadas por segundo, e o sistema é agora capaz de identificar mais de 500,000 palavras sufixadas. O Adivinhador modificado obteve uma precisão de 87%., en=STRING is a Natural Language Processing (NLP) chain developed at L2F/INESC-ID Lisboa, and it is currently capable of identifying both prefixed and non-affixed (base) words. This MsC dissertation tackles the problem of automatic identification of suffixed words (e.g. `cat + inho', `little cat') in texts as well as some improvements in category guessing for unknown words. A Suffixed Words Generator was developed, functioning as a new submodule of LexMan, the transducer-based morphological analyzer of STRING. The architecture here developed is based on a Two-Level Morphology approach, which involves combining a lexicon of lemmas and the set of corresponding flexional paradigms, which, together generate suffixed words. To date, seven of the most productive suffixes in Portuguese have been described (diminutive suffixes -inho and -ito, superlatives -íssimo and -érrimo, adverbial suffix -mente, adjectival suffix -vel and corresponding nominal suffix -bilidade). This work also tackles the correct guessing of grammatical category for unknown words, that is, words that do not exist in the lexicon. The existing Guesser module was modified to specifically address two types of unknown words: name-name compound words and diacritical errors. The performance of both solutions was then evaluated and compared to the original performance of LexMan. The new Suffixed Word Generator module only adds a small static overhead to the transducer operations, barely having any impact in the rate of words processed by second. This small loss in performance is attenuated by the capability to identify almost 500,000 new words. The modified Guesser achieved an accuracy of 87%.}
Keywords: {pt=Processamento de Língua Natural, Anotação Morfosintáctica, Suﬁxação, Transdutores, Análise Morfológica, en=Natural Language Processing, Part-of-Speech Tagging, Suffixation, Transducers, Morphological Analysis}

Discussão: novembro 9, 2016, 10:30