Dissertação

{en_GB=Ad Hoc Teamwork under Partial Observability} {} EVALUATED

{pt=Neste trabalho, apresentamos um novo algoritmo, ATPO, baseado em inferência Bayesiana para resolver o problema de Ad Hoc teamwork em um ambiente de observabilidade parcial, permitindo a cooperação com agentes desconhecidos que desejam concluir uma tarefa desconhecida sem precisar de protocolos de coordenação. ATPO acomoda a observabilidade parcial usando as observaçẽs do agente para identificar com qual agente está a cooperar com e qual tarefa quer concluir. Esta abordagem não pressupõe que as ações do colega de equipa sejam visíveis. Exploramos diferentes cenários como: identificar e adaptar-se ao seu colega de equipa de acordo com o seu comportamento; identificar qual das tarefas conhecidas o seu colega de equipa está a tentar concluir; identificar ambos. Os resultados mostram que ATPO pode identificar de forma eficiente e robusta qual das capturas o seu colega de equipa quer concluir, também obtendo resultados razoáveis ao identificar o seu colega de equipa. Além disso, a sua eficiência em concluir um certo objectivo varia de acordo com a quantidade de informação que lhe é fornecida. O seu desempenho pode variar entre quase perfeito, quando ele sabe qual dos objetivos têm de atingir mas não conhece o seu colega de equipa, e ter um desempenho 57% mais lento do que o comportamento ideal, quando ele não conhece nem o seu colega de equipa nem o objectivo a atingir. Finalmente, o nosso agente mostra uma boa escalabilidade, sendo capaz de se adaptar a ambientes maiores e ambientes mais incertos. , en=In this work, we present a novel Bayesian online prediction algorithm for the problem setting of ad hoc teamwork under partial observability (ATPO), which enables on-the-fly collaboration with unknown teammates performing an unknown task without needing a pre-coordination protocol. Unlike previous works that assume a fully observable state of the environment, ATPO accommodates partial observability, using the agent's observations to identify which teammate it is cooperating with as well as which task is being performed by the teammate. This approach does not assume that the teammate's actions are visible. We explore different scenarios such as the need to identify and adapt to its teammates according to their behaviour, as well as identifying which of the known tasks its teammate is looking to accomplish, and act accordingly. The results show that ATPO can efficiently and robustly identify which capture its teammate is working towards as well as performing reasonably at identifying its teammate. Additionally, its efficiency at achieving a given goal varies with the amount of information given to it. Its performance can range from near-optimal, when it knows which goal to achieve but not how its teammate behaves, and performing 57% slower than the optimal behaviour, when it knows neither its teammate behaviour nor which goal he needs to achieve. Finally, it showcases good scalability, being able to adapt to increasingly larger problem sizes as well as increasingly uncertain environments. }
{pt=Ad Hoc Teamwork, Partial Observability, Pursuit domain, Bayesian inference, Multi-Agent Systems, en=Ad Hoc Teamwork, Partial Observability, Pursuit domain, Bayesian inference, Multi-Agent Systems}

novembro 16, 2021, 9:0

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

José Alberto Rodrigues Pereira Sardinha

Departamento de Engenharia Informática (DEI)

Professor Auxiliar

ORIENTADOR

Francisco António Chaves Saraiva de Melo

Departamento de Engenharia Informática (DEI)

Professor Associado