Dissertação

{en_GB=E2 RL - Efficient Exploration in Reinforcement Learning} {} EVALUATED

{pt=Esta tese foca-se no problema de exploração eficiente em aprendizagem por reforço com aproximação de funções baseada em redes neuronais. No entanto, e apesar dos seus recentes sucessos, estes métodos requerem um volume significativo de dados. Estratégias de exploração eficientes - em que o agente procura activamente visitar regiões promissoras ou menos visitadas do espaço de estados-acções - têm sido investigadas em domínios de aprendizagem por reforço clássicos, melhorando significativamente a eficiência de aprendizagem nestes métodos. Esta tese contribui novas estratégias de exploração que combinam e estendem abordagens existentes para exploração em arquiteturas de aprendizagem por reforço baseadas em aprendizagem profunda. É testado o impacto das abordagens propostas em vários domínios de referência da literatura da aprendizagem por reforço, demonstrando o impacto positivo da exploração activa na performance de algoritmos de aprendizagem por reforço com aproximação de funções baseada em redes neuronais., en=This thesis addresses the problem of efficient exploration in reinforcement learning (RL) with neural network approximations. However, and in spite of their recent successes, these methods require significant amounts of data. Efficient exploration strategies - in which the agent actively seeks to visit promising or less-visited portions of the state-action space - have been actively investigated in classical RL domains, significantly improving the learning efficiency of such methods. This thesis contributes novel active exploration strategies that combine and extend existing approaches for exploration with Deep RL architectures. The impact of our proposed approaches is tested in several benchmark domains in the RL literature, showcasing the positive impact of active exploration in the learning performance of RL algorithms with neural network approximations.}
{pt=Aprendizagem profunda, Aprendizagem por reforço, Dilema "exploration-exploitation", Motivação intrínseca, Redes neuronais com ruído, en=Deep Learning, Reinforcement Learning, Exploration-exploitation trade-off, Intrinsic motivation, Noisy neural networks}

Junho 5, 2018, 9:0

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Francisco António Chaves Saraiva de Melo

Departamento de Engenharia Informática (DEI)

Professor Auxiliar

ORIENTADOR

Manuel Fernando Cabido Peres Lopes

Departamento de Engenharia Informática (DEI)

Professor Associado