Dissertação

Single-partition adaptive Q-learning: algorithm and applications EVALUATED

A aprendizagem por reforço (AR) é uma área dentro da aprendizagem automática que estuda como agentes podem aprender a levar a cabo uma tarefa sem serem explicitamente programados para o fazer. Um conceito importante em AR é o de eficiência amostral: um algoritmo é eficiente se precisa de poucas amostras para aprender uma determinada tarefa. Até há pouco tempo, admitia-se que os algoritmos model-based eram mais eficientes que os model-free. Recentemente, foi demonstrado que os algoritmos model-free também podem ser eficientes. Um dos últimos algoritmos desenvolvidos é o adaptive Q-learning (AQL), o qual lida com espaços de estados e ações contínuos ao dividi-los adaptativamente consoante as amostras recolhidas. O AQL é projectado para aprender políticas que variam com o tempo. No entanto, muitos problemas (como o controlo de sistemas invariantes no tempo) podem ser resolvidos satisfatoriamente com políticas invariantes no tempo. Esta dissertação introduz o single-partition adaptive Q-learning (SPAQL), uma versão melhorada do AQL projetada para aprender políticas invariantes no tempo. O SPAQL é avaliado empiricamente em quatro problemas, dois dos quais da área do controlo. Os agentes SPAQL exibem melhor desempenho que os AQL, aprendendo inclusive políticas mais simples. Para os problemas de controlo, o SPAQL com estado terminal (SPAQL-TS, de terminal state) é introduzido e comparado juntamente com o SPAQL face ao método trust region policy optimization (TRPO), um algoritmo de AR padrão para resolver problemas de controlo. Num dos problemas (CartPole), o SPAQL e o SPAQL-TS demonstram uma maior eficiência amostral que o TRPO.
aprendizagem por reforço, Q-learning, eficiência amostral, controlo

julho 23, 2020, 14:0

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Miguel Afonso Dias de Ayala Botto

Departamento de Engenharia Mecânica (DEM)

Professor Catedrático

ORIENTADOR

Mário Alexandre Teles de Figueiredo

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Professor Catedrático