Dissertação

Analysis of Transformer Behaviour in Reinforcement Learning EVALUATED

Decision Transformer introduz modelação de sequências como uma metodologia para alcançar os resultados desejados em problemas de aprendizagem por reforço, enquanto evita problemas comuns desta área, que tipicamente causam divergência na aprendizagem. Estados, ações e recompensas futuras são amostrados de um dataset de forma a condicionar a forma como um modelo planeia uma certa trajetória, mascarando secções futuras de forma a que cada intervalo temporal apenas considere o seu passado de forma auto-regressiva. Neste trabalho são identificados alguns problemas inerentes ao DT e mudanças arquiteturais foram implementadas de forma a estabilizar a forma de como este modelo interage a cada instância do problema. Tanto um algoritmo on-policy como off-policy foram desenvolvidos de forma a provar que exploração pode ser aplicada a modelação de sequências, resolvendo a limitação de qualidade e diversidade que o uso de um dataset causa. Finalmente, foi efetuada uma transição de problemas exemplificativos para mercados financeiros de maneira a demonstrar que a aplicabilidade deste modelos a problemas reais é possível através de algoritmos de aprendizagem por reforço e que o uso de transformers é um passo significativo na resolução eficiente destes problemas.
Aprendizagem por Reforço Profunda, Transformers, Modelação de Sequência, Mercados Financeiros, Markov Decision Processes

dezembro 6, 2022, 9:30

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Arlindo Manuel Limede de Oliveira

Departamento de Engenharia Informática (DEI)

Professor Catedrático