Dissertação

Interactively Teaching an Inverse Reinforcement Learner with Limited Feedback EVALUATED

Estudamos o problema do ensino por demonstrações em tarefas de tomada de decisão sequencial. Em particular, abordamos a situação em que o professor não tem acesso ao modelo e política do aluno, e o feedback do aluno é limitado a trajetórias que começam a partir de estados selecionados pelo professor. A necessidade de selecionar os estados iniciais e inferir a política do aluno cria uma oportunidade de usar métodos de aprendizagem por reforço inverso e aprendizagem ativa pelo professor. Propomos dois algoritmos de ensino que utilizam o princípio da entropia causal máxima para inferir a política. O primeiro algoritmo usa uma versão adaptada do método active value-at-risk para selecionar os estados iniciais. O segundo algoritmo inquire o aluno usando os estados iniciais das demonstrações anteriores. Ambos os algoritmos utilizam o método de difficulty score ratio para escolher as demonstrações de ensino. Testamos ambos os algoritmos num ambiente sintético de condução e concluímos que ambos são soluções viáveis quando o feedback do aluno é limitado.
Processos de Decisão Sequenciais, Aprendizagem por Reforço Inverso, Ensino Automático, Ensino e Aprendizagem Interativos

novembro 29, 2022, 13:0

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Francisco António Chaves Saraiva de Melo

Departamento de Engenharia Informática (DEI)

Associate Professor

ORIENTADOR

Manuel Fernando Cabido Peres Lopes

Departamento de Engenharia Informática (DEI)

Associate Professor