Dissertação

Multi-Document Keyphrase Extraction with Transformer Models and Geospatial Association Measures EVALUATED

A extração de palavras-chave é uma tarefa que visa obter um conjunto de palavras ou frases de um documento que representa a informação mais relevante. Avanços recentes recorrem ao modelo Transformer para construir representações de frases e documentos, que permitem quantificar a proximidade semântica. Neste trabalho, dois métodos de extração de frases-chave são revisitados à luz de novos modelos Transformer. Após avaliação destes modelos, envolvendo representações alternativas de frases, os resultados apontam para conclusões em desacordo com alguma literatura. No entanto, a introdução de pequenas melhorias nos métodos de base possibilitaram progressos, sendo alcançado um desempenho competitivo face ao estado-da-arte. Apesar da sua utilidade para descrever e resumir conjuntos de documentos relacionados com um tópico específico, o problema de extração de palavras-chave em multi-documentos é raramente mencionado. Através da reestruturação e adaptação de métodos concebidos para um documento único ao cenário multi-documento, este trabalho apresenta um novo estado-de-arte. No contexto multi-documento é ainda apresentada uma nova ideia que explora medidas de associação geoespacial, como complemento à informação semântica contida nas frases, para melhorar a qualidade final das frases-chave extraídas. Os resultados empíricos não confirmaram melhorias no melhor método, mas foram exploradas com sucesso para melhorar outro método. Ainda assim, considera-se que esta ideia deveria continuar a ser explorada para se determinar, com base em dados mais abrangentes, a sua utilidade efetiva.
Extração de palavras-chave, Multi-documento, Transformers, Medidas de associação geoespacial

novembro 23, 2023, 10:30

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Bruno Emanuel Da Graça Martins

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Professor Associado