Dissertação

{en_GB=Fine-grained POS-tagging: Full disambiguation of Verbal Morpho-syntatic Tags} {} EVALUATED

{pt=A anotação morfossintática constitui uma das principais tarefas no Processamento de Língua Natural, pelo que existem vários sistemas que têm abordado este problema, que se têm vindo a basear no desenvolvimento de regras, métodos estatísticos ou abordagens híbridas. Ainda assim, muitos destes sistemas não são desenvolvidos a ponto de desambiguarem totalmente a informação morfológica de uma palavra. Esta informação é importante na análise sintática em línguas com um sistema flexional mais complexo. A Língua Portuguesa tem um sistema morfológico complexo na flexão verbal, apresentando muitas formas verbais ambíguas na sua flexão. O objectivo deste trabalho é a desambiguação de formas verbais, considerando a flexão em modo, tempo, pessoa, número e género. Para resolver este problema, foram implementados métodos de Aprendizagem Automática no sistema STRING. Estas abordagens foram testadas sob diferentes condições, de modo a fazer uma análise do impacto observável quando se faz variar a ordem pela qual as características de flexão são desambiguadas, a fim de a desambiguar a totalidade da etiqueta morfosintática de uma forma verbal. O método da Máxima Entropia foi o que atingiu um valor mais alto de precisão (95,28%) na desambiguação das características de flexão. Este valor contrasta com o limiar definido, que se situou num valor de 91,67% para a precisão. Este limiar baseia-se numa combinação de um sistema de regras, que inclui situações específicas na desambiguação da flexão das formas verbais, com desambiguadores estatísticos construídos para a desambiguação de categoria e subcategoria de uma palavra, desambiguação do lema verbal e desambiguação de pronomes., en=Part-of-speech (POS) tagging is an important Natural Language Processing task and many systems have been applied to this problem, adopting either a rule-based, a probabilistic or a hybrid approach. However, most of the standard POS taggers do not disambiguate fine-grained morphological information within word categories. This information, such as gender and number, is important in parsing highly inflectional languages. European Portuguese presents a complex verbal inflection system, with many inflected ambiguous verb forms. This work aims at disambiguating verb forms, considering the inflection features of mood, tense, person, number and gender. To solve this problem, Machine Learning (ML) techniques were implemented in the STRING system. These ML techniques were tested in several scenarios, in order to analyse the impact of all the possible sequences of inflection features on performing the full disambiguation of the verb tag. Among the tested ML methods, Maximum Entropy (ME) obtained the highest precision (95.28%) in the disambiguation of verbal inflection features, contrasting with the baseline that only reached 91.67%. This baseline is a result of verbal inflection disambiguation rules combined with statistical disambiguators for the disambiguation of the category and subcategory, verbal lemma, along with the disambiguation of personal pronouns.}
{pt=Processamento de Língua Natural, Aprendizagem Automática, Anotação Morfosintáctica, Desambiguação da Flexão Verbal, Características de Flexão, Desambiguação do Lema Verbal, en=Natural Language Processing, Machine Learning, Part-of-Speech Tagging, Verbal Inflection Disambiguation, Inflection Features, Verbal Lemma Disambiguation}

junho 3, 2016, 14:30

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Nuno João Neves Mamede

Departamento de Engenharia Informática (DEI)

Professor Associado

ORIENTADOR

Jorge Manuel Evangelista Baptista

UAlg - Universidade do Algarve

Professor Associado