Dissertação
Interactively Teaching an Inverse Reinforcement Learner with Limited Feedback EVALUATED
Estudamos o problema do ensino por demonstrações em tarefas de tomada de decisão sequencial. Em particular, abordamos a situação em que o professor não tem acesso ao modelo e política do aluno, e o feedback do aluno é limitado a trajetórias que começam a partir de estados selecionados pelo professor. A necessidade de selecionar os estados iniciais e inferir a política do aluno cria uma oportunidade de usar métodos de aprendizagem por reforço inverso e aprendizagem ativa pelo professor. Propomos dois algoritmos de ensino que utilizam o princípio da entropia causal máxima para inferir a política. O primeiro algoritmo usa uma versão adaptada do método active value-at-risk para selecionar os estados iniciais. O segundo algoritmo inquire o aluno usando os estados iniciais das demonstrações anteriores. Ambos os algoritmos utilizam o método de difficulty score ratio para escolher as demonstrações de ensino. Testamos ambos os algoritmos num ambiente sintético de condução e concluímos que ambos são soluções viáveis quando o feedback do aluno é limitado.
novembro 29, 2022, 13:0
Publicação
Obra sujeita a Direitos de Autor
Orientação
ORIENTADOR
Francisco António Chaves Saraiva de Melo
Departamento de Engenharia Informática (DEI)
Associate Professor
ORIENTADOR
Manuel Fernando Cabido Peres Lopes
Departamento de Engenharia Informática (DEI)
Associate Professor