Dissertação

Sentence-level representations for document ranking EVALUATED

Modelos de linguagem contextuais pré-treinados têm sido bem sucedidos em várias aplicações na área de processamento de linguagem natural, e mais recentemente em problemas de recuperação de informação. Neste trabalho, propomos o uso de representações de frases, criadas a partir deste tipo de modelos, para problemas de classificação de documentos. Calculamos a relevância de documentos extensos com base na agregação das pontuações de frases candidatas, determinadas por um modelo RoBERTa. Experiências na coleção GOV do TREC mostram que a abordagem proposta produz melhores resultados do que usar funções de classificação mais simples, baseadas em representações esparsas, como o BM25.
Processamento de Linguagem Natural, Recuperação de Informação, Classificação de Documentos, Modelos de Linguagem Pré-Treinados

janeiro 21, 2021, 16:30

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Bruno Emanuel Da Graça Martins

Departamento de Engenharia Informática (DEI)

Professor Auxiliar

ORIENTADOR

Pável Pereira Calado

Departamento de Engenharia Informática (DEI)

Professor Associado