Dissertação

Enhancing Information Retrieval Models through Click and Synthetic Data EVALUATED

Os modelos de recuperação são muito importantes no apoio ao cliente, na medida em que automatizam vários processos, como por exemplo a sugestão dos documentos com base em perguntas de utilizadores. Os recuperadores densos tendem a ter um melhor desempenho em tarefas de pesquisa semântica, uma vez que podem resolver o problema da correspondência de vocabulário, frequentemente observado em modelos esparsos clássicos como o TF-IDF e o BM25. No entanto, os recuperadores densos e supervisionados necessitam de grandes quantidades de dados para terem um bom desempenho. A Zendesk serve diversos negócios e indústrias e, por isso, o desafio está em criar um modelo universal capaz de recuperar dados de múltiplos centros de ajuda. A complexidade da recuperação de informação torna se maior e portanto, o objetivo é então melhorar estes modelos para os tornar mais precisos em vários domínios. O nosso esforço focou-se no uso de dados de cliques, recolhidos de utilizadores, e a aplicação de diferentes métodos, que incluem funções de custo e samplers de dados. Além disso, investigámos a utilidade dos dados sintéticos como alternativa à falta de dados do reais para efeitos de treino destes modelos. Os resultados revelaram que os modelos refinados num grande conjunto de dados são capazes de construir um recuperador universal, ou seja, um modelo capaz de recuperar com precisão em múltiplos centros de ajuda. Além disso, o estudo indica a vantagem da utilização de dados sintéticos no treino, em particular, quando misturados com dados do mundo real.
Recuperação de Informações, Pesquisa Semântica, Geração de Dados, Resposta a Perguntas, Apoio ao Cliente

junho 26, 2024, 8:30

Documentos da dissertação ainda não disponíveis publicamente

Orientação

ORIENTADOR

Mariana Almeida

Zendesk

ORIENTADOR

Bruno Emanuel Da Graça Martins

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Professor Associado