Dissertação

Novel Reinforcement Learning Methods for Robotics EVALUATED

Este trabalho cobre o processo de decisão de Markov e as aplicações deste em aprendizagem por reforço, usando duas condições de otimização conhecidas como a equação de Bellman e o método do gradiente descendente. Estas condições são utilizadas para derivar algoritmos históricos como o Q-Learning e Reward Increment non Negative Factor Offset Reinforcement. Combinar esses algoritmos com aproximacão de funções e métodos de ator-crítico gera soluções que ligam à aprendizagem profunda. Uma introdução a redes neuronais é seguida por uma descrição dos algoritmos implementados como Deep-Q-Learning, Deep Deterministic Policy Gradient e Advantage Actor Critic. Estes são testados num conjunto de ambientes, que levantam desafios práticos encontrados com a implementação dos algoritmos descritos. Camadas adicionais que permitiram minimizar limitações descritas são listadas com as descrições dos ambientes Tabelas de hiperparametros são usadas para descrever os agentes implementados em cada ambiente e as experiencias efetuadas com os mesmos. Os resultados obtidos são comparados para avaliar o efeito dos hiper-parâmetros usados.
Processo de decisão de Markov, Aprendizagem por reforço, Aproximação de funções, Ator-Crítico

outubro 20, 2020, 11:0

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Tiago Santos Veiga

NTNU, Noruega

Investigador Auxiliar

ORIENTADOR

Pedro Manuel Urbano de Almeida Lima

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Professor Catedrático