FenixEdu™

Dissertação

Sentence-level representations for document ranking EVALUATED

Detalhes: Modelos de linguagem contextuais pré-treinados têm sido bem sucedidos em várias aplicações na área de processamento de linguagem natural, e mais recentemente em problemas de recuperação de informação. Neste trabalho, propomos o uso de representações de frases, criadas a partir deste tipo de modelos, para problemas de classificação de documentos. Calculamos a relevância de documentos extensos com base na agregação das pontuações de frases candidatas, determinadas por um modelo RoBERTa. Experiências na coleção GOV do TREC mostram que a abordagem proposta produz melhores resultados do que usar funções de classificação mais simples, baseadas em representações esparsas, como o BM25.
Keywords: Processamento de Linguagem Natural, Recuperação de Informação, Classificação de Documentos, Modelos de Linguagem Pré-Treinados

Discussão: janeiro 21, 2021, 16:30