Dissertação
{en_GB=Using Deep Learning to create an Universal Game Player} {} EVALUATED
{pt=Nesta dissertação introduzimos uma nova arquitectura de agentes inteligentes que permite (i) transferir conhecimento de tarefas previamente aprendidas para uma nova tarefa à qual tem como objectivo aprender e (ii) lembrar-se de como exercer as tarefas previamente aprendidas enquanto aprende a nova. A arquitectura proposta modifica a recente arquitectura actor-crítico assíncrona, em GPU (GA3C), permitindo-a ser aplicada a aprendizagem multi-tarefa, e adiciona-lhe o algoritmo "Elastic Weight Consolidation" (EWC) de modo a aliviar o esquecimento catastrófico. Com o agente obtido, ao qual chamamos de "Universal Game Player" (UGP), mostramos que (i) aprender várias tarefas em simultâneo facilita a aprendizagem de uma nova tarefa, semelhante às anteriores e (ii) adicionando o algoritmo EWC ao GA3C, é possível evitar uma quantidade substancial de esquecimento catastrófico., en=This dissertation introduces a general-purpose architecture that allows a learning agent to (i) transfer knowledge from a previously learned task to a new one that is now required to learned and (ii) remember how to perform the previously learned tasks as it learns the new one. The proposed architecture modifies the asynchronous advantage actor-critic, on GPU (GA3C, enabling multi-task learning and augments it with the Elastic Weight Consolidation algorithm, alleviating catastrophic forgetting. With our obtained agent, named the Universal Game Player (UGP), we show that by learning multiple tasks it is possible to improve the learning efficiency for a new one that is now required to learned and that by augmenting the GA3C's with the Elastic Weight Consolidation (EWC) algorithm, it is possible to overcome a substantial amount of catastrophic forgetting.}
outubro 31, 2018, 16:30
Publicação
Obra sujeita a Direitos de Autor
Orientação
ORIENTADOR
João Miguel De Sousa de Assis Dias
Departamento de Engenharia Informática (DEI)
Professor Auxiliar
ORIENTADOR
Francisco António Chaves Saraiva de Melo
Departamento de Engenharia Informática (DEI)
Professor Associado