FenixEdu™

Dissertação

{en_GB=Ad hoc teamwork using approximate representations} {} EVALUATED

Detalhes: {pt=A produção em massa de sistemas tecnológicos por todo o mundo é uma questão não só económica, mas também ecológica da nossa atualidade. É fundamental que encontremos soluções alternativas o mais rápido possível, para contribuir para uma sociedade mais sustentável. Uma área emergente que pode trazer alguns avanços nesse sentido é a do trabalho em equipa ad hoc, que estuda a integração de um agente numa nova equipa, sem conhecer previamente os seus novos colegas de equipa. Este agente seria reutilizável em tarefas futuras, reduzindo assim a necessidade de produzir uma quantidade tão volumosa de agentes. Com os recentes avanços nesta área, é possível criar agentes capazes de alcançar um elevado desempenho nesta tarefa. No entanto, nenhuma das abordagens existentes tratou este problema em domínios de elevada dimensão com observabilidade parcial. Neste artigo, apresentamos um novo algoritmo, Partially Observable Plastic Policy (POPP), que combina aprendizagem por transferência com Deep Recurrent Q-Networks, em que um agente aprende políticas para cooperar com diferentes tipos de colegas de equipa, e reutiliza esse conhecimento quando confrontado com novas equipas. Escolhemos o domínio Half-Field Offense para avaliação. Experimentamos diferentes configurações, com e sem observabilidade parcial, e com colegas de equipa conhecidos e desconhecidos. Finalmente, apresentamos e discutimos os nossos resultados e comparamo-los com abordagens não recorrentes, como Deep Q-Networks (DQN). Concluímos que o POPP foi capaz de identificar rapidamente a maioria das equipas conhecidas anteriormente e superou a percentagem de golos marcados de uma abordagem DQN em cenários parcialmente observáveis., en=The mass production of technological systems around the world is both an economic and ecological issue we face today. It is critical that we find alternate solutions as soon as possible, to contribute to a more sustainable society. An emerging field that can bring some advancements towards this goal is that of ad hoc teamwork, which studies how an agent can be integrated in a new team without prior knowledge of its new teammates. Such agents would be reusable in future tasks, reducing the need to create such a huge amount of agents. Recent advances in this field shown that it is possible to design agents capable of achieving high performance in this task. However, none of the existing approaches tackled this problem for large domains with partial observability. In this paper, we present a new algorithm, Partially Observable Plastic Policy (POPP), that combines transfer learning with Deep Recurrent Q-Networks, by having an agent learn policies to play along with different types of teammates, and reusing that knowledge when faced with new teams. We chose the Half-Field Offense domain for evaluation. We experiment with different configurations, with and without partial observability, and with known and unknown teammates. Finally, we present and discuss our results, and compare them to non-recurrent approaches, namely Deep Q-Networks (DQN). We concluded that POPP was able to quickly identify most of the previously known teams, and surpassed the score rate of a DQN approach in partially observable scenarios.}
Keywords: {pt=Trabalho em Equipa Ad Hoc, Sistemas Multi-agente, Aprendizagem por Transferência, Aproximação de Funções, Redes Neuronais Recorrentes, en=Ad Hoc Teamwork, Multi-agent Systems, Transfer Learning, Function Approximation, Recurrent Neural Networks}

Discussão: novembro 21, 2022, 14:0