Dissertação

{en_GB=Novel Reinforcement Learning Methods for Robotics} {} EVALUATED

{pt=Este trabalho cobre o processo de decisão de Markov e as aplicações deste em aprendizagem por reforço, usando duas condições de otimização conhecidas como a equação de Bellman e o método do gradiente descendente. Estas condições são utilizadas para derivar algoritmos históricos como o Q-Learning e Reward Increment non Negative Factor Offset Reinforcement. Combinar esses algoritmos com aproximacão de funções e métodos de ator-crítico gera soluções que ligam à aprendizagem profunda. Uma introdução a redes neuronais é seguida por uma descrição dos algoritmos implementados como Deep-Q-Learning, Deep Deterministic Policy Gradient e Advantage Actor Critic. Estes são testados num conjunto de ambientes, que levantam desafios práticos encontrados com a implementação dos algoritmos descritos. Camadas adicionais que permitiram minimizar limitações descritas são listadas com as descrições dos ambientes Tabelas de hiperparametros são usadas para descrever os agentes implementados em cada ambiente e as experiencias efetuadas com os mesmos. Os resultados obtidos são comparados para avaliar o efeito dos hiper-parâmetros usados., en=This work goes over the Markov decision process and how it applies to Reinforcement Learning, using two optimization conditions known as Bellman Equation and Gradient Descent. Those conditions are used to derive historic algorithms such as Q-Learning and Reward Increment non Negative Factor Offset Reinforcement. By combining those algorithms with Function Approximation and Actor-Critic one finds solutions that connect with Deep Learning. A gentle introduction to neural networks is followed by a description of Deep Q-Network, Deep Deterministic Policy Gradient and Advantage Actor Critic algorithms. These are tested on a set of diversified environments which raise some practical challenges faced when implementing agents. Additional layers addressing these issues are itemized along the environment descriptions. Hyper-parameter tables are used to describe the agents implemented on each environment and the experiments they were made to perform. The results obtained will then compared to evaluate the effects of the different hyper-parameter values being applied. }
{pt=Processo de decisão de Markov, Aprendizagem por reforço, Aproximação de funções, Ator-Crítico, en=Markov decision process, Reinforcement learning, Function approximation, Actor-Critic}

Outubro 20, 2020, 11:0

Orientação

ORIENTADOR

Tiago Santos Veiga

NTNU, Noruega

Investigador Auxiliar

ORIENTADOR

Pedro Manuel Urbano de Almeida Lima

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Professor Catedrático