FenixEdu™

Dissertação

{en_GB=Simultaneous Tagging of Named Entities and Parts-of-Speech for Portuguese and Spanish Texts} {} EVALUATED

Detalhes: {pt=O reconhecimento de entidades mencionadas e a etiquetação morfo-sintática são tarefas fundamentais na área de processamento de língua natural, atualmente com diversas aplicações práticas. O estado de arte nestas tarefas consiste no treino supervisionado de redes neuronais profundas, alcançando resultados próximos a peritos humanos nestas tarefas. No entanto, em cenários com menos recursos, como o processamento de textos históricos ou em línguas diferentes do Inglês, o facto que existem poucos corpora de treino limita a aplicação de técnicas modernas para aprendizagem automática. Para combater esta limitação, compilámos e normalizámos uma lista exaustiva de corpora contendo texto em Português e em Espanhol, anotado com categorias morfo-sintáticas e/ou entidades mencionadas. Posteriormente, avaliámos uma arquitetura neuronal moderna para etiquetação de sequências, considerando técnicas de aprendizagem por transferência baseadas em aprendizagem multitarefa, aprendendo simultaneamente nas tarefas de etiquetagem morfo-sintática e reconhecimento de entidades mencionadas, e aprendizagem multilingue, alinhando os embeddings de Português e Espanhol num espaço vetorial comum. Esta abordagem permite tirar partido de todos os dados disponíveis de forma a explorar semelhanças subjacentes nestas tarefas/línguas, com o intuito de melhorar a performance em textos históricos. O nosso modelo multilingue, i.e. uma abordagem unificada para anotar textos com categorias morfo-sintáticas e entidades mencionadas em Português e Espanhol, alcança 91.97% de exactidão e 84.60% de F1 nas duas tarefas em Português, e 93.91% de exactidão e 64.34% de F1 em Espanhol, ao avaliar em média para todos os dados destas línguas., en=Named entity recognition and parts-of-speech tagging are fundamental tasks in the field of natural language processing, currently with many practical applications. The current state-of-the-art approaches are based on the supervised training of deep neural networks, achieving near-human level accuracy. However, on less-resource scenarios arising from processing historical texts or languages other than English, the fact that few training corpora exist limits the use of modern machine learning approaches. To address this limitation, we collected and standardized a wide variety of datasets containing text in Portuguese and Spanish, annotated according to parts-of-speech and/or named entities. We then evaluated a modern neural architecture for sequence labeling, considering transfer learning approaches based on multi-task learning (i.e., simultaneously addressing parts-of-speech tagging and named entity recognition) and cross-lingual learning (i.e., aligning word embeddings of the Portuguese and Spanish languages in a single vector space), in order to exploit all the available data and the underlying similarities on these tasks/languages, specifically to improve generalization on the smaller historical datasets. Our cross-lingual model, i.e. a joint approach for annotating texts with parts-of-speech and named entities in Portuguese and Spanish, achieves 91.97% of POS accuracy and 84.60% of entity-level F1 score for Portuguese, and 93.91% of POS accuracy and 64.34% of entity-level F1 score for Spanish, when averaging over all datasets for these languages. We also release a collection of 13 standardized datasets to the research community to further stimulate research in these understudied languages and domains.}
Keywords: {pt=Processamento de Língua Natural, Modelos de Aprendizagem Profunda, Reconhecimento de Entidades Mencionadas, Aprendizagem Multitarefa, Aprendizagem Multilingue, en=Natural Language Processing, Deep Learning Models, Named Entity Recognition, Multi-Task Learning, Cross-Language Learning}

Discussão: junho 6, 2019, 9:0