Dissertação

Geographical Question Answering Leveraging Neural Language Models for Passage Retrieval EVALUATED

Esta tese de mestrado foca na tarefa de passage retrieval, que consiste em identificar as passagens mais relevantes de uma coleção de documentos que possam responder a uma dada questão. Desenvolvimentos recentes nesta tarefa utilizam redes neuronais profundas, mais especificamente métodos baseados em Transformadores, treinados em grandes coleções de dados como o MS-MARCO. Apesar do progresso obtido por estes métodos, poucos estudos focaram especificamente em questões geo-espaciais (i.e., questões sobre localizações, ou questões sobre informação específica de lugares). Desta forma, este projeto focou no domínio geográfico, explorando o uso de modelos neuronais para recuperação de informação no contexto de questões geo-espaciais, utilizando um subconjunto das instâncias presentes na coleção MS-MARCO, cujas questões e passagens contêm entidades geográficas. O subconjunto foi caraterizado, e uma estratégia de re-ranking baseada na distância geográfica foi analisada, tendo sido depois utilizada para amostrar exemplos negativos difíceis para o treino dos modelos. Modelos seguindo as arquiteturas bi-encoder e cross-encoder foram treinados utilizando um método de amostragem de negativos baseado na distância geográfica, considerando a intuição de que passagens negativas que contenham entidades espaciais menos distantes das que estão na questão vão, em princípio, ser mais desafiantes para o modelo. Técnicas como expansão de dados e destilação de conhecimento foram empregues no treino dos modelos mais eficientes, baseados em bi-encoders, de modo a melhorar os resultados. As experiências mostram que os modelos treinados seguindo a estratégia descrita neste documento obtêm melhores resultados no subconjunto de perguntas geográficas do MS-MARCO, quando comparados com os modelos base.
Recuperação de Informação Geográfica, Resposta a Questões Geográficas, Recuperação de Passagens, Modelos de Linguagem Neuronais, Transformadores

novembro 17, 2021, 10:30

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Bruno Emanuel Da Graça Martins

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Professor Associado

ORIENTADOR

João Miguel da Costa Magalhães

Universidade Nova de Lisboa - FCT

Professor Associado