Dissertação
{en_GB=Ad hoc teamwork with unknown task model and teammate behavior} {} EVALUATED
{pt= Esta tese aborda o problema de ad hoc teamwork. Ad hoc teamwork consiste em criar um agente que coopera com uma equipa sem pre-coordenacao. Nos focamo-nos nos cenários em que o modelo da tarefa e do mundo são desconhecidos, e o agente tem que aprender a tarefa, aprender o comportamento dos colegas de equipa e adaptar-se a eles. Nos propomos uma nova solução que combina model-based reinforcement learning com Monte Carlo tree search para que o agente ad hoc aprenda a tarefa e consiga coordenar com o resto da equipa. Nos modelamos o ambiente e o comportamento da equipa usando deep neural networks que são aprendidas a medida que o agente explora. Usando esta abordagem model-based, conseguimos atingir uma boa performance sem usar muitos samples. A solução e demonstrada no conhecido pursuit domain e os nossos resultados mostram que e competitiva com soluções state-of-the-art que assumem perfeito conhecimento da tarefa e do comportamento da equipa., en=This thesis addresses the problem of ad hoc teamwork. Ad hoc teamwork consists of creating an agent that can cooperate with a team without pre-coordination. We focus on settings where the task and world model are unknown, and the agent must learn this task, learn its teammates' policies and adapt to them. We propose a new approach that combines model-based reinforcement learning with Monte Carlo tree search to enable an ad hoc agent to learn the underlying task and coordinate with its teammates. We model the underlying environenment and the teammates' behaviors using deep neural networks that are learned as the ad hoc agent explores. By using a model-based approach, we can achieve a good performance with low sample complexity. The solution is demonstrated in the well-established pursuit domain and our results show that it is competitive against state-of-the-art approaches that rely on the perfect model of the task and known behavior of the teammates.}
outubro 31, 2018, 9:0
Publicação
Obra sujeita a Direitos de Autor
Orientação
ORIENTADOR
José Alberto Rodrigues Pereira Sardinha
Departamento de Engenharia Informática (DEI)
Professor Auxiliar
ORIENTADOR
Francisco António Chaves Saraiva de Melo
Departamento de Engenharia Informática (DEI)
Professor Associado