Dissertação
Analysis of Transformer Behaviour in Reinforcement Learning EVALUATED
Decision Transformer introduz modelação de sequências como uma metodologia para alcançar os resultados desejados em problemas de aprendizagem por reforço, enquanto evita problemas comuns desta área, que tipicamente causam divergência na aprendizagem. Estados, ações e recompensas futuras são amostrados de um dataset de forma a condicionar a forma como um modelo planeia uma certa trajetória, mascarando secções futuras de forma a que cada intervalo temporal apenas considere o seu passado de forma auto-regressiva. Neste trabalho são identificados alguns problemas inerentes ao DT e mudanças arquiteturais foram implementadas de forma a estabilizar a forma de como este modelo interage a cada instância do problema. Tanto um algoritmo on-policy como off-policy foram desenvolvidos de forma a provar que exploração pode ser aplicada a modelação de sequências, resolvendo a limitação de qualidade e diversidade que o uso de um dataset causa. Finalmente, foi efetuada uma transição de problemas exemplificativos para mercados financeiros de maneira a demonstrar que a aplicabilidade deste modelos a problemas reais é possível através de algoritmos de aprendizagem por reforço e que o uso de transformers é um passo significativo na resolução eficiente destes problemas.
dezembro 6, 2022, 9:30
Publicação
Obra sujeita a Direitos de Autor
Orientação
ORIENTADOR
Arlindo Manuel Limede de Oliveira
Departamento de Engenharia Informática (DEI)
Professor Catedrático