
{en_GB=Using Deep Learning to create an Universal Game Player} {} EVALUATED

{pt=Nesta dissertação introduzimos uma nova arquitectura de agentes inteligentes que permite (i) transferir conhecimento de tarefas previamente aprendidas para uma nova tarefa à qual tem como objectivo aprender e (ii) lembrar-se de como exercer as tarefas previamente aprendidas enquanto aprende a nova. A arquitectura proposta modifica a recente arquitectura actor-crítico assíncrona, em GPU (GA3C), permitindo-a ser aplicada a aprendizagem multi-tarefa, e adiciona-lhe o algoritmo "Elastic Weight Consolidation" (EWC) de modo a aliviar o esquecimento catastrófico. Com o agente obtido, ao qual chamamos de "Universal Game Player" (UGP), mostramos que (i) aprender várias tarefas em simultâneo facilita a aprendizagem de uma nova tarefa, semelhante às anteriores e (ii) adicionando o algoritmo EWC ao GA3C, é possível evitar uma quantidade substancial de esquecimento catastrófico., en=This dissertation introduces a general-purpose architecture that allows a learning agent to (i) transfer knowledge from a previously learned task to a new one that is now required to learned and (ii) remember how to perform the previously learned tasks as it learns the new one. The proposed architecture modifies the asynchronous advantage actor-critic, on GPU (GA3C, enabling multi-task learning and augments it with the Elastic Weight Consolidation algorithm, alleviating catastrophic forgetting. With our obtained agent, named the Universal Game Player (UGP), we show that by learning multiple tasks it is possible to improve the learning efficiency for a new one that is now required to learned and that by augmenting the GA3C's with the Elastic Weight Consolidation (EWC) algorithm, it is possible to overcome a substantial amount of catastrophic forgetting.}
{pt=Agentes Inteligentes, Redes Neuronais, Aprendizagem por Reforço Profunda, Aprendizagem Multi-Tarefa, Aprendizagem por Transferência, Esquecimento Catastrófico, en=Intelligent Agents, Neural Networks, Deep Reinforcement Learning, Multi-Task Learning, Transfer Learning, Catastrophic Forgetting}

outubro 31, 2018, 16:30


Obra sujeita a Direitos de Autor



João Miguel De Sousa de Assis Dias

Departamento de Engenharia Informática (DEI)

Professor Auxiliar


Francisco António Chaves Saraiva de Melo

Departamento de Engenharia Informática (DEI)

Professor Associado