FenixEdu™

Dissertação

Modelling the Recommender Alignment Problem - An Abstract Model and a Toy Experiment Where We Learn to Control Evolutionary Dynamics in Social Dilemmas Through Recommendations EVALUATED

Detalhes: Sistemas de recomendação (SR) mediam a experiência humana na internet. A maioria dos SR optimizam métricas imperfeitamente alinhadas com os interesses dos utilizadores, mas que são fáceis de medir, como clicks e tempo de utilização. Isto tem efeitos secundários difíceis de medir: polarização, dependência, notícias falsas. Enfrentamos um “Problema de Alinhamento de Recomendação”: a tarefa de alinhar recomendações com os objectivos de utilizadores, designers dos sistemas, e a sociedade. Como podemos comparar potenciais soluções? A sua escala significa que testá-los ao vivo é custoso. Para guiar trabalho futuro, sintetizamos uma estrutura de modelação. Para a ilustrar, concebemos uma experiência-modelo onde perguntamos: "Como podemos avaliar as consequências de usar "tempo de utilização" como recompensa no treino de SR?" Para responder a esta pergunta, aprendemos políticas que optimizam recompensas controlando dinâmicas do grafo do ambiente através de recomendação. Baseando-nos nos efeitos que os recomendadores treinados têm nos seus ambientes, concluímos que maximizadores de utilização geralmente levam a piores condições que recomendadores alinhados. Após a aprendizagem, examinamos competição como potencial solução para o problema de alinhamento. Observamos que competição leva a melhores condições que monopólios de SR individuais. Temos um foco abrangente, tocando superficialmente em vários pontos para mostrar como é que um estudo end-to-end sobre funções recompensa para sistemas de recomendação poderia ser feito. Alinhar sistemas de recomendação é um problema urgente. Futuras tentativas terão decerto impactos a longo prazo. Aqui tomamos um primeiro passo no desenvolvimento de métodos para avaliar e comparar potenciais soluções em função desses mesmos impactos.
Keywords: sistemas de recomendação, redes complexas, teoria dos jogos evolucionária, aprendizagem por reforço

Discussão: novembro 19, 2021, 14:30