Dissertação
Dyna-GPT: Reinforcement Learning with Sample Efficient Transformer-Based Hybrid Agent EVALUATED
Este trabalho apresenta o Dyna-GPT, uma estrutura híbrida de aprendizagem por reforço inspirada na arquitetura Dyna e na modelação de sequências baseada em Transformers. Esta abordagem combina metodologias com e sem modelo de forma a criar um agente que utiliza as interações com o ambiente para aprender uma política ótima e construir um modelo do mundo simultaneamente. O objetivo é abordar questões relacionadas com a eficiência de amostragem nas metodologias sem modelo, e a propagação do viés do modelo do mundo em abordagens com modelo. Isto é alcançado através do desenvolvimento de um modelo baseado num Transformer que é eficiente em termos de amostras devido aos dados gerados pelo modelo do mundo, e que obtém bom desempenho em cenários de longo prazo devido à mitigação do viés do modelo, resultante do recurso a dados reais para aprendizagem da política. A arquitetura de Transformers forma a base deste modelo híbrido. Dyna-GPT é baseado no ODT e conta com a adição de um modelo do mundo idêntico ao utilizado no IRIS. Em termos de performance, o Dyna-GPT é melhor que a sua variante que utiliza apenas dados imaginados, indicando que a presença de dados reais atenua a propagação do viés do modelo. Enquanto que mostra ganhos na eficiência de amostragem em relação ao ODT, o Dyna-GPT não elimina completamente o viés do modelo, não conseguindo igualar as abordagens sem modelo em termos de performance assintótica. A avaliação foi feita no ambiente MuJoCo Hopper, por exigir controlo preciso num espaço de ações contínuas.
novembro 14, 2024, 10:30
Documentos da dissertação ainda não disponíveis publicamente
Orientação
ORIENTADOR
Francisco António Chaves Saraiva de Melo
Departamento de Engenharia Informática (DEI)
Professor Associado