Dissertação

{en_GB=Morphosyntactic Label Disambiguation} {} EVALUATED

{pt=Atribuição de etiquetas morfossintáticas é uma tarefa fulcral em Processamento de Língua Natural, fornecendo não só informação valiosa sobre a estrutura frásica do texto processado, mas também sobre a morfologia de cada palavra. Outrora feita manualmente, esta é, atualmente, uma tarefa clássica de Processamento de Língua Natural executada por atribuidores de etiquetas automatizados. Quanto mais informação o atribuidor inferir, melhor. Os atribuidores mais recentes a alcançar resultados estado de arte nesta tarefa utilizam modelos à base de redes neuronais recorrentes para prever uma única etiqueta para cada palavra. Geralmente, esta etiqueta representa, ou a função sintática da palavra na frase, ou combina a função sintática com várias características morfológicas da palavra. Esta dissertação aborda a tarefa de atribuição de etiquetas morfossintáticas para Portugês Europeu com uma maior ambição. Usando redes recorrentes Long-Short Term Memory e Conditional Random Fields em conjunto com representações de palavras e regras manualmente definidas, esta dissertação apresenta quatro modelos que visam desambiguação de 11 etiquetas morfossintáticas para cada palavra. Com o objetivo final de tentar ultrapassar o atual módulo estatístico de desambiguação de etiquetas morfossintáticas da STRING, MARv4, os modelos foram avaliados utilizando diferentes configurações e diferentes representações de palavras. No geral, todos os modelos mostram bons resultados, revelando que uma única rede neuronal é capaz de atribuir várias etiquetas morfossintáticas. O melhor modelo apresenta um desempenhos satisfatório, tomando partido do uso de regras manuais. No entanto, este modelo fica ligeiramente aquém da precisão média de 97.30% obtida pelo MARv4, com uma precisão média de 94.89%., en=Part-of-speech tagging is a fundamental task in Natural Language Processing. It provides valuable information about sentence structure, as well as morphological information about each word. Once done by hand, part-of-speech tagging is now a classic Natural Language Processing task performed by automated part-of-speech taggers. The more information a part-of-speech tagger can infer about the sentence, the better. Current state-of-the-art part-of-speech taggers use recurrent neural networks based models to predict a single label for each word. Usually, this label represents either the word role in the sentence or a combination of it with word morphosyntactic characteristics. This dissertation addresses the part-of-speech tagging task for European Portuguese with a broader ambition. Using Long-Short Term Memory networks and Conditional Random Fields, it presents four different models that in combination with word representations and hand-crafted rules aim to disambiguate 11 different morphosyntactic labels for each word. With the final goal of trying to surpass the current statistical disambiguator module for morphosyntactic labels of STRING, the models were tested with different input representations and different configurations. Overall, all models show good performance, showing that a single neural network can successfully predict several labels for part-of-speech tagging. Notably, the best model performs considerably better than the remaining ones, taking advantage of the hand-crafted rules. However, this model still falls slightly short with an average accuracy of 94.89% and do not surpass the current STRING morphosyntactic disambiguator, MARv4, with an average of 97.30%.}
{pt=Desambiguação etiquetas morfossintáticas, Processamento Língua Natural, Aprendizagem Automática, Conditional Random Fields Restringidos, en=Morphosyntactic Label Disambiguation, Natural Language Processing, Machine Learning, Restricted Conditional Random Fields}

Novembro 8, 2018, 16:30

Orientação

ORIENTADOR

Bruno Emanuel Da Graça Martins

Departamento de Engenharia Informática (DEI)

Professor Auxiliar

ORIENTADOR

Nuno João Neves Mamede

Departamento de Engenharia Informática (DEI)

Professor Associado