Dissertação

Simultaneous Tagging of Named Entities and Parts-of-Speech for Portuguese and Spanish Texts EVALUATED

O reconhecimento de entidades mencionadas e a etiquetação morfo-sintática são tarefas fundamentais na área de processamento de língua natural, atualmente com diversas aplicações práticas. O estado de arte nestas tarefas consiste no treino supervisionado de redes neuronais profundas, alcançando resultados próximos a peritos humanos nestas tarefas. No entanto, em cenários com menos recursos, como o processamento de textos históricos ou em línguas diferentes do Inglês, o facto que existem poucos corpora de treino limita a aplicação de técnicas modernas para aprendizagem automática. Para combater esta limitação, compilámos e normalizámos uma lista exaustiva de corpora contendo texto em Português e em Espanhol, anotado com categorias morfo-sintáticas e/ou entidades mencionadas. Posteriormente, avaliámos uma arquitetura neuronal moderna para etiquetação de sequências, considerando técnicas de aprendizagem por transferência baseadas em aprendizagem multitarefa, aprendendo simultaneamente nas tarefas de etiquetagem morfo-sintática e reconhecimento de entidades mencionadas, e aprendizagem multilingue, alinhando os embeddings de Português e Espanhol num espaço vetorial comum. Esta abordagem permite tirar partido de todos os dados disponíveis de forma a explorar semelhanças subjacentes nestas tarefas/línguas, com o intuito de melhorar a performance em textos históricos. O nosso modelo multilingue, i.e. uma abordagem unificada para anotar textos com categorias morfo-sintáticas e entidades mencionadas em Português e Espanhol, alcança 91.97% de exactidão e 84.60% de F1 nas duas tarefas em Português, e 93.91% de exactidão e 64.34% de F1 em Espanhol, ao avaliar em média para todos os dados destas línguas.
Processamento de Língua Natural, Modelos de Aprendizagem Profunda, Reconhecimento de Entidades Mencionadas, Aprendizagem Multitarefa, Aprendizagem Multilingue

junho 6, 2019, 9:0

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Bruno Emanuel Da Graça Martins

Departamento de Engenharia Informática (DEI)

Professor Auxiliar

ORIENTADOR

Pedro Balage

Farfetch

Investigador