Dissertação
Hybrid Extractive/Abstractive Summarization Using Pre-Trained Sequence-to-Sequence Models EVALUATED
Os métodos típicos para resumo de documentos podem ser extrativos, que selecionam partes apropriadas do texto de entrada para incluir no resumo, ou abstrativos, que geram um novo texto com base numa representação do texto de origem. Em ambos os casos, o estado da arte atual envolve o uso de modelos neuronais de linguagem pré-treinados com base na arquitetura Transformer. A maioria destas abordagens não consegue processar o texto de entrada para além de um pequeno número limitado de tokens. Este estudo propõe uma abordagem de sumarização híbrida com base num único modelo T5, que primeiro seleciona frases importantes do texto de origem e, posteriormente, produz um resumo abstrativo a partir frases selecionadas. Assim, reduzimos os requisitos computacionais associados ao uso de modelos Transformer e mitigamos os efeitos das suas limitações de tamanho de sequências de entrada, garantindo um bom desempenho. Experimentando com conjuntos de dados diferentes, mostramos que nosso método atinge resultados comparáveis aos modelos atuais, mantendo requisitos computacionais relativamente baixos.
novembro 13, 2020, 14:30
Publicação
Obra sujeita a Direitos de Autor
Orientação
ORIENTADOR
Bruno Emanuel Da Graça Martins
Departamento de Engenharia Informática (DEI)
Professor Auxiliar
ORIENTADOR
Rui Filipe Lima Maranhão de Abreu
Faculdade de Engenharia da Universidade do Porto
Professor Catedratico