Dissertação

{en_GB=Playing Soccer with Unknown Teammates} {} EVALUATED

{pt=O futebol robótico permite a investigadores tentar resolver muitos desafios no campo da inteligência artificial. Um desses desafios é a colaboração com colegas de equipa desconhecidos, sem qualquer tipo de pré-coordenação, o que é conhecido por ad hoc teamwork. Avanços em ad hoc teamwork possibilitam que a colaboração em sistemas multi-agente seja mais robusta e versátil em comparação a mecanismos de coordenação tradicionais, pois aborda situações como colaboração entre agentes desenvolvidos por pessoas diferentes, com agentes descontinuados que já não podem ser alterados e mesmo com humanos. Algum do atual trabalho na literatura tenta resolver este desafio reutilizando experiência com colegas de equipa antigos para se adaptar a colegas atuais, por exemplo usando políticas previamente aprendidas para agir. Esta dissertação estende a abordagem estado-da-arte de modo a também lidar com colegas desconhecidos que podem ser significativamente diferentes de colegas antigos, aproveitando o que foi previamente aprendido. Para o fazer, uma equipa atual não identificada é detetada como sendo uma equipa conhecida ou desconhecida, observando se o seu comportamento é consistentemente semelhante ao comportamento passado de uma equipa conhecida. Se for detetada como desconhecida, o agente seleciona a política previamente aprendida cuja equipa considera ser mais semelhante à equipa desconhecida, que é então melhorada online, como uma fonte para parameter sharing transfer learning., en=Robotic soccer allows researchers to attempt to solve many challenges in the field of artificial intelligence. One such challenge is collaboration with unknown teammates, without any sort of pre-coordination, which is known as ad hoc teamwork. Advances in ad hoc teamwork enable collaboration in multi-agent systems to be more robust and versatile compared to traditional coordination mechanisms, as it addresses situations such as collaboration with agents developed by different people, with legacy agents that cannot be modified and even with humans. Some current work in the literature attempts to address this challenge by reusing experience with past teammates to adapt to new ones, for example by acting using previously learned policies. This thesis extends the state-of-the-art approach in order to also deal with unknown teammates that might be significantly different from past teammates, while still leveraging what was previously learned. To achieve this, a current unidentified team is detected either as being a known team or unknown, by observing if the team's behavior is consistently similar to the past behavior of a known team. If it is detected as unknown, the agent selects the previously learned policy whose team it considers to be most similar to the unknown team, which is then improved online, as a source for parameter sharing transfer learning.}
{pt=Agentes autónomos e sistemas multi-agente, Aprendizagem por reforço, Coordenação ad hoc, Inteligência artificial, en=Ad hoc teamwork, Artificial intelligence, Autonomous agents and multiagent systems, Reinforcement learning}

Janeiro 13, 2021, 10:30

Orientação

ORIENTADOR

José Alberto Rodrigues Pereira Sardinha

Departamento de Engenharia Informática (DEI)

Professor Auxiliar