FenixEdu™

Dissertação

{pt_PT=Goal-Oriented Dialogue with Sparse Language Models} {} EVALUATED

Detalhes: {pt=Sistemas de diálogo orientados a um objetivo têm o propósito de fornecer uma resposta automática em conversas com uma finalidade especı́fica. Dados recentes avanços em arquiteturas de Aprendizagem Profunda, abordagens mais flexı́veis têm aparecido, com a possibilidade de aplicar conhecimento pré-existente de modelos treinados de uma forma auto-supervisionada a sistemas de diálogo. Contudo, a necessidade de adaptar a resposta original a cada contexto torna a tarefa de a gerar particularmente desafiante. Diferentes estratégias para formar uma resposta têm sido propostas, com o intuito de tornar o texto gerado mais fluente, coerente, e relevante. O objetivo deste estudo consiste em experimentar a utilização de técnicas de geração esparsas neste contexto, recorrendo à amostragem da transformação α-entmax. Esta técnica será comparada com outras abordagens do estado da arte, como busca gananciosa e amostragem de núcleo, avaliando com detalhe os diferentes sistemas originados. Por outro lado, à medida que as abordagens modulares são substituı́das por arquiteturas ponta-a-ponta, torna-se mais difı́cil avaliar estes sistemas de diálogo. Vários trabalhos recorrem a métodos de avaliação caraterı́sticos de outras tarefas, nomeadamente tradução automática, levantando dúvidas sobre a sua relevância para avaliar diálogo. Para as esclarecermos, conduzimos uma recolha de anotações humanas sobre o desempenho de vários sistemas, com o objetivo de determinar a correlação entre estas métricas automáticas e a perceção humana de qualidade. O método de avaliação é uma parte importante da análise de desempenho, já que uma escolha inapropriada deste poderá levar a conclusões erradas., en=The purpose of goal-oriented dialogue systems is to provide automatic responses in a conversation with a specific goal. Given recent advances in Deep Learning, this task is now more flexible, as pre-existing knowledge from models trained with self-supervised learning can be transferred to conversation systems. However, the need to adapt the original answer to the dialogue context makes the task of generating it particularly challenging. Different strategies to decode a sentence have been proposed, aiming at making the generated text more fluent, coherent, and relevant. The goal of this study is to experiment sparse generation techniques in this framework, which sample from the recently proposed α-entmax transformation. We compare this technique with other state-of-the-art approaches, such as greedy search and nucleus sampling, by thoroughly assessing the different systems. Moreover, as the modularized approach is replaced by end-to-end architectures, goal-oriented systems become more difficult to be evaluated. Many works resort to evaluation methods imported from other tasks, namely machine translation, raising the question of whether they are suitable for evaluating dialogue. To address this problem, we conduct a study to determine the correlation between these automatic metrics and human perception of quality. The evaluation procedure is an important part of the performance analysis, since choosing an inappropriate method can lead to the wrong conclusions.}
Keywords: {pt=sistemas de diálogo orientados a objetivo, amostragem α-entmax, métricas automáticas, avaliação humana, en=goal-oriented dialogue systems, α-entmax sampling, automatic metrics, human evaluation}

Discussão: janeiro 27, 2021, 8:30