Dissertação

{en_GB=Generation of Explanations in Reinforcement Learning} {} EVALUATED

{pt=Reinforcement Learning base tem uma interpretação clara da solução com base na recompensa total com desconto. No entanto, ter uma explicação matemática não faz a explicação intuitiva e a politica fácil de entender, mesmo para problemas pequenos. Deveriamos ser capaz de explicar a um utilizador porquê que uma solução é melhor do que uma solução alterantiva, não só dizer que a alternativa tem um custo mais elevado. Desta forma, nós consideramos 6 formas diferentes de explicações para diferentes questões que o utilizador possa ter. As questões que nós temos como objectivo responder são: Porquê esta acção neste estado, Como chegar ao estado óptimo, Porque não um caminho diferente, O que acontece neste caminho, O que acontece neste estado e O que acontece quando a política é executada com erros. A nossa contribuição é um toolkit para gerar explicações, novas ferramentas algoritmicas para gerar explicações e mostrar um conjunto de exemplos para ilustrar a funcionalidade da nossa abordagem. , en=Vanilla Reinforcement Learning has a clear interpretation of its solution based on the maximization of the total discounted reward. Nevertheless having a mathematical explanation does not make it intuitive and easy to understand the resulting policy even in small problems. We should be able to explain to a user why a given solution is better than an alternative beyond saying that the cost of the alternative is higher. We consider 6 different types of explanations for different questions a user might have. The questions we aim to answer are Why this action in this state, How to reach the optimal state, Why not a different path, What happens in this path, What happens in a state and What happens when the policy is executed with errors. We contribute with a toolkit to provide explanations, new algorithmic tools to generate explanations, and show several examples to illustrate the approach.}
{pt=Reinforcement Learning, Markov Decision Process, Interpretação, Explicações, Toolkit, en=Reinforcement Learning, Markov Decision Process, Interpretation, Explanations, Toolkit}

Novembro 19, 2019, 14:30

Orientação

ORIENTADOR

Manuel Fernando Cabido Peres Lopes

Departamento de Engenharia Informática (DEI)

Professor Associado

ORIENTADOR

Francisco António Chaves Saraiva de Melo

Departamento de Engenharia Informática (DEI)

Professor Associado