Dissertação

Modelling the Recommender Alignment Problem - An Abstract Model and a Toy Experiment Where We Learn to Control Evolutionary Dynamics in Social Dilemmas Through Recommendations EVALUATED

Sistemas de recomendação (SR) mediam a experiência humana na internet. A maioria dos SR optimizam métricas imperfeitamente alinhadas com os interesses dos utilizadores, mas que são fáceis de medir, como clicks e tempo de utilização. Isto tem efeitos secundários difíceis de medir: polarização, dependência, notícias falsas. Enfrentamos um “Problema de Alinhamento de Recomendação”: a tarefa de alinhar recomendações com os objectivos de utilizadores, designers dos sistemas, e a sociedade. Como podemos comparar potenciais soluções? A sua escala significa que testá-los ao vivo é custoso. Para guiar trabalho futuro, sintetizamos uma estrutura de modelação. Para a ilustrar, concebemos uma experiência-modelo onde perguntamos: "Como podemos avaliar as consequências de usar "tempo de utilização" como recompensa no treino de SR?" Para responder a esta pergunta, aprendemos políticas que optimizam recompensas controlando dinâmicas do grafo do ambiente através de recomendação. Baseando-nos nos efeitos que os recomendadores treinados têm nos seus ambientes, concluímos que maximizadores de utilização geralmente levam a piores condições que recomendadores alinhados. Após a aprendizagem, examinamos competição como potencial solução para o problema de alinhamento. Observamos que competição leva a melhores condições que monopólios de SR individuais. Temos um foco abrangente, tocando superficialmente em vários pontos para mostrar como é que um estudo end-to-end sobre funções recompensa para sistemas de recomendação poderia ser feito. Alinhar sistemas de recomendação é um problema urgente. Futuras tentativas terão decerto impactos a longo prazo. Aqui tomamos um primeiro passo no desenvolvimento de métodos para avaliar e comparar potenciais soluções em função desses mesmos impactos.
sistemas de recomendação, redes complexas, teoria dos jogos evolucionária, aprendizagem por reforço

novembro 19, 2021, 14:30

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Manuel Fernando Cabido Peres Lopes

Departamento de Engenharia Informática (DEI)

Professor Associado

ORIENTADOR

Francisco João Duarte Cordeiro Correia dos Santos

Departamento de Engenharia Informática (DEI)

Professor Catedrático