Dissertação

Dyna-GPT: Reinforcement Learning with Sample Efficient Transformer-Based Hybrid Agent EVALUATED

Este trabalho apresenta o Dyna-GPT, uma estrutura híbrida de aprendizagem por reforço inspirada na arquitetura Dyna e na modelação de sequências baseada em Transformers. Esta abordagem combina metodologias com e sem modelo de forma a criar um agente que utiliza as interações com o ambiente para aprender uma política ótima e construir um modelo do mundo simultaneamente. O objetivo é abordar questões relacionadas com a eficiência de amostragem nas metodologias sem modelo, e a propagação do viés do modelo do mundo em abordagens com modelo. Isto é alcançado através do desenvolvimento de um modelo baseado num Transformer que é eficiente em termos de amostras devido aos dados gerados pelo modelo do mundo, e que obtém bom desempenho em cenários de longo prazo devido à mitigação do viés do modelo, resultante do recurso a dados reais para aprendizagem da política. A arquitetura de Transformers forma a base deste modelo híbrido. Dyna-GPT é baseado no ODT e conta com a adição de um modelo do mundo idêntico ao utilizado no IRIS. Em termos de performance, o Dyna-GPT é melhor que a sua variante que utiliza apenas dados imaginados, indicando que a presença de dados reais atenua a propagação do viés do modelo. Enquanto que mostra ganhos na eficiência de amostragem em relação ao ODT, o Dyna-GPT não elimina completamente o viés do modelo, não conseguindo igualar as abordagens sem modelo em termos de performance assintótica. A avaliação foi feita no ambiente MuJoCo Hopper, por exigir controlo preciso num espaço de ações contínuas.
Aprendizagem por Reforço sem Modelo, Aprendizagem por Reforço com Modelo, Transformer, Modelação de Sequências, Eficiência de Amostragem, Dyna

novembro 14, 2024, 10:30

Documentos da dissertação ainda não disponíveis publicamente

Orientação

ORIENTADOR

Francisco António Chaves Saraiva de Melo

Departamento de Engenharia Informática (DEI)

Professor Associado

ORIENTADOR

Diogo Filipe de Sousa Carvalho

INESC-ID

Investigador