Dissertação
{en_GB=Hybrid Extractive/Abstractive Summarization Using Pre-Trained Sequence-to-Sequence Models} {} EVALUATED
{pt=Os métodos típicos para resumo de documentos podem ser extrativos, que selecionam partes apropriadas do texto de entrada para incluir no resumo, ou abstrativos, que geram um novo texto com base numa representação do texto de origem. Em ambos os casos, o estado da arte atual envolve o uso de modelos neuronais de linguagem pré-treinados com base na arquitetura Transformer. A maioria destas abordagens não consegue processar o texto de entrada para além de um pequeno número limitado de tokens. Este estudo propõe uma abordagem de sumarização híbrida com base num único modelo T5, que primeiro seleciona frases importantes do texto de origem e, posteriormente, produz um resumo abstrativo a partir frases selecionadas. Assim, reduzimos os requisitos computacionais associados ao uso de modelos Transformer e mitigamos os efeitos das suas limitações de tamanho de sequências de entrada, garantindo um bom desempenho. Experimentando com conjuntos de dados diferentes, mostramos que nosso método atinge resultados comparáveis aos modelos atuais, mantendo requisitos computacionais relativamente baixos., en=Typical document summarization methods can be either extractive, by selecting appropriate parts of the input text to include in the summary, or abstractive, by generating new text with basis on a meaningful representation of the source text. In both cases, the current state-of-the-art involves the use of pre-trained neural language models based on the Transformer architecture. Most of these approaches are unable to process input text beyond a limited small number of tokens. This paper advances a hybrid summarization approach based on a single T5 model, which first selects important sentences from the source text, and subsequently produces an abstractive summary from the selected sentences. In doing this, we reduce the overall computational requirements associated to the use of Transformer models, and mitigate the effects of their input size limitations, while ensuring a good performance. Through experiments with different datasets, we show that our method achieves comparable results to current state-of-the-art models, while maintaining relatively low computational requirements.}
novembro 13, 2020, 14:30
Publicação
Obra sujeita a Direitos de Autor
Orientação
ORIENTADOR
Bruno Emanuel Da Graça Martins
Departamento de Engenharia Informática (DEI)
Professor Auxiliar
ORIENTADOR
Rui Filipe Lima Maranhão de Abreu
Faculdade de Engenharia da Universidade do Porto
Professor Catedratico