Dissertação

Bandit-Based Strategies for Monte Carlo Planning in Continuous Action Spaces EVALUATED

Os algoritmos de pesquisa em árvore de Monte Carlo (MCTS) já mostraram ser uma abordagem bem sucedida para planeamento em domínios com espaços de ação discretos. Foi também demonstrado que a sua pesquisa pode ser melhorada utilizando estratégias que resolvem o problema Multi-Armed Bandit (MAB) de planeamento de uma única ação. Tendo como motivação a resolução de problemas de controlo contínuo, surgiram algumas adaptações às estratégias MAB que permitem tomar decisões momentâneas em ambientes com espaços de ação contínuos. Por sua vez, estas foram também utilizadas para melhorar a pesquisa dos algoritmos MCTS. Este estudo propõe-se a encontrar soluções melhoradas que se enquadram nesta categoria e a provar que elas realmente resolvem problemas em domínios contínuos. A principal contribuição deste trabalho é a proposta de um novo algoritmo que resolve o problema Bandit em espaços de ação contínuos, bem como uma prova teórica que estabelece um limite da performance do algoritmo. Além disso, apresentamos resultados experimentais em problemas clássicos de controlo contínuo que mostram que é possível planear ações com MCTS melhorada através da utilização do algoritmo apresentado.
Planeamento, Controlo Contínuo, Bandits, Monte Carlo Tree Search

Janeiro 19, 2021, 15:30

Documentos da dissertação ainda não disponíveis publicamente

Orientação

ORIENTADOR

Francisco António Chaves Saraiva de Melo

Departamento de Engenharia Informática (DEI)

Professor Associado

ORIENTADOR

Pedro Alexandre Simões dos Santos

Departamento de Matemática (DM)

Professor Auxiliar