FenixEdu™

Dissertação

Evaluating generalization in Deep Reinforcement Learning with Procedural Generated Environments EVALUATED

Detalhes: Agentes de aprendizagem profunda por reforço, principalmente aqueles que aprendem de observações visuais tendem a falhar a transferência do seu conhecimento para ambientes nunca antes vistos. Em jogos, é comum protocolos de aprendizagem profunda por reforço promoverem o teste no mesmo conjunto de níveis usado durante o treino. Esta prática leva o agente a dar overfit no conjunto de treino, não conseguindo transferir o seu conhecimento para níveis fora da distribuição. Para ultrapassarmos este problema, construímos dois conjuntos separados de treino e de teste usando ambientes gerados processualmente do Procgen Benchmark. Usamos este benchmark para medir a extensão do overfitting e estudar sistematicamente os efeitos da regularização e de métodos de augmentação de dados, frequentemente usados em aprendizagem supervisionada, na capacidade de generalização do agente . Descobrimos que, em geral, usar regularização e augmentação de dados melhora a generalização, e que a sua eficácia está dependente das dinâmicas do ambiente. Além disso, estudámos como as decisões sobre a arquitetura neuronal, tais como a profundidade e largura da rede, o uso de camadas de pooling, skip-connections, e como modificações à camada de classificação, afetam a generalização. Finalmente, demonstramos empiricamente que uma rede convolucional com filtros pequenos nas primeiras camadas convolucionais consegue atingir o mesmo nível de generalização que modelos residuais mais profundos
Keywords: Aprendizagem Profunda por Reforço, Generalização, Overfitting, Conteúdo gerado por procedimentos

Discussão: dezembro 3, 2021, 14:30