Dissertação
Adapting Multilingual Sentence Transformers for Unsupervised Key-Phrase Extraction from Long Documents EVALUATED
A extração de palavras chave é uma tarefa que consiste em recolher um pequeno conjunto de frases que contenha os conceitos chaves de um determinado texto, normalmente um único documento. Os sistemas supervisionados estado da arte para este problema necessitam de grandes quantidades de data anotada e têm fraca generalização para fora do domínio onde foram treinados, enquanto os sistemas não supervisionados têm na sua grande maioria resultados piores. Este trabalho começa por apresentar novas abordagens multilingues para a extração de palavras chave num único documento, melhorando resultados anteriores utilizando representações obtidas por Transformers pré treinados e suportando o processamento de documento de texto longos. Atentando ao facto de poucos estudos existirem referentes à extração de palavras chave num cenário multi-documento, embora seja uma tarefa muito valiosa para trabalhos de sumarização de tópicos, este trabalho também contém abordagens para o cenário multi-documento. Neste contexto, as abordagens para um documento único foram adaptadas utilizando operações de reclassificação, expandindo-as para o cenário multi-documento. Os resultados experimentais obtidos, em datasets novos e antigos, em várias línguas e em diferentes domínios confirmam a qualidade das palavras chave extraídas por estas novas abordagens.
junho 21, 2022, 16:30
Publicação
Obra sujeita a Direitos de Autor
Orientação
ORIENTADOR
Bruno Emanuel Da Graça Martins
Departamento de Engenharia Electrotécnica e de Computadores (DEEC)
Professor Associado
ORIENTADOR
CIRAD · Département Scientifique Environnements et Sociétés (ES)
Senior Research Scientist