Dissertação

{en_GB=Learning dynamics in populations of actor-critic agents} {} EVALUATED

{pt=O estudo sobre o aparecimento da cooperação ainda é um problema em aberto para muitas áreas do conhecimento. Esse problema pode ser formalizado através de Teoria dos Jogos e dilemas iterativos para N-jogadores. Aqui investigamos as dinâmicas de aprendizagem que aparecem nesse tipo de problema. Nós simulamos a tomada de decisão em dilemas de N-jogadores com agentes de diferentes níveis de sofisticação quanto ao método de aprendizagem, adotando um algoritmo de aprendizagem de diferença temporal como ponto de partida. Os resultados mostram que a combinação de uma simples política Actor-Critic com um estado de espaços que permite ao jogador distinguir quantos agentes cooperaram e qual foi sua última ação pode proporcionar um aumento significativo nos níveis de cooperação. Os resultados são dependentes das características do dilema, mais precisamente do tamanho do grupo e da contribuição mínima para se produzir um retorno coletivo. Cooperação também aumenta com baixo fator de exploração e taxa de aprendizagem, e diminuir com os descontos nas recompensas futuras. Em fim, estes resultados sugerem que, para cada dilema, a combinação adequada de estado de espaços e método de seleção de políticas garante coordenação de agentes adaptativos e individualistas em sistemas de multi-agentes., en=The study of the emergence of cooperation remains an open challenge for many areas of knowledge. This problem can be conveniently formalized through the eyes of game theory and iterated N-person dilemmas. Here we investigate the learning dynamics emerging from this type of problems. We simulate decision-making in N-person dilemmas with agents portraying different levels of sophistication concerning their learning method, adopting a temporal difference learning algorithm as a baseline scenario. The results show that the combination of a simple Actor-Critic policy with a state space that allows players to distinguish how many agents cooperated and its previous action in the previous round can offer a significant increase in the overall level of cooperation. These results are shown to be depend on the the nature of the dilemma, namely on the size of the group and the minimum contributions needed to produce a collective return. Cooperation is also shown to increase with low exploration and learning rates, and to decrease with the discounting of future rewards. Overall, our results suggest that, for each dilemma, a proper selection of state space and policy selection method ensures coordinated efforts within a multi-agent system made of adaptive self-regarding agents. }
{pt=Aprendizado por Reforço, Sistemas Multi-Agents, Teoria dos Jogos, Jogos de Bem Público., en=Reinforcement Learning, Multi-Agent Systems, Game Theory, Public Goods Games.}

Dezembro 12, 2019, 14:0

Orientação

ORIENTADOR

Francisco António Chaves Saraiva de Melo

Departamento de Engenharia Informática (DEI)

Professor Associado

ORIENTADOR

Francisco João Duarte Cordeiro Correia dos Santos

Departamento de Engenharia Informática (DEI)

Professor Associado