Dissertação

{en_GB=Generation of Explanations in Reinforcement Learning} {} EVALUATED

{pt=Reinforcement Learning base tem uma interpretação clara da solução com base na recompensa total com desconto. No entanto, ter uma explicação matemática não faz a explicação intuitiva e a politica fácil de entender, mesmo para problemas pequenos. Deveriamos ser capaz de explicar a um utilizador porquê que uma solução é melhor do que uma solução alterantiva, não só dizer que a alternativa tem um custo mais elevado. Desta forma, nós consideramos 6 formas diferentes de explicações para diferentes questões que o utilizador possa ter. As questões que nós temos como objectivo responder são: Porquê esta acção neste estado, Como chegar ao estado óptimo, Porque não um caminho diferente, O que acontece neste caminho, O que acontece neste estado e O que acontece quando a política é executada com erros. A nossa contribuição é um toolkit para gerar explicações, novas ferramentas algoritmicas para gerar explicações e mostrar um conjunto de exemplos para ilustrar a funcionalidade da nossa abordagem. , en=Vanilla Reinforcement Learning has a clear interpretation of its solution based on the maximization of the total discounted reward. Nevertheless having a mathematical explanation does not make it intuitive and easy to understand the resulting policy even in small problems. We should be able to explain to a user why a given solution is better than an alternative beyond saying that the cost of the alternative is higher. We consider 6 different types of explanations for different questions a user might have. The questions we aim to answer are Why this action in this state, How to reach the optimal state, Why not a different path, What happens in this path, What happens in a state and What happens when the policy is executed with errors. We contribute with a toolkit to provide explanations, new algorithmic tools to generate explanations, and show several examples to illustrate the approach.}
{pt=Reinforcement Learning, Markov Decision Process, Interpretação, Explicações, Toolkit, en=Reinforcement Learning, Markov Decision Process, Interpretation, Explanations, Toolkit}

novembro 19, 2019, 14:30

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Manuel Fernando Cabido Peres Lopes

Departamento de Engenharia Informática (DEI)

Professor Associado

ORIENTADOR

Francisco António Chaves Saraiva de Melo

Departamento de Engenharia Informática (DEI)

Professor Associado