Dissertação

{en_GB=A behavioral investigation of the algorithms underlying reinforcement learning in humans} {} EVALUATED

{pt=Desde o final da década de 90, que vários estudos têm sugerido a aprendizagem por reforços (reinforcement learning) como sendo uma estrutura normativa computacional na qual os processos de tomada de decisão podem ser explicados. De facto, várias evidências têm relacionado um sinal chave desta estrutura normativa, os erros de previsão utilizados nos algoritmos de diferenças temporais, com a concentração de dopamina fásica. No entanto, ainda não existe um conhecimento claro de como o circuito neuronal envolvido nos processos de aprendizagem funciona, e portanto qual o modelo computacional que melhor o explica. Além disso, a aprendizagem por reforços tem descrito vários algoritmos que diferem na maneira como os erros de previsão são calculados. Neste estudo uma nova tarefa probabilística Go/NoGo foi desenhada e testada. O objectivo foi fornecer um maior conhecimento sobre o cálculo dos erros de previsão no cérebro humano: se determinados pelo valor do estado (como no modelo Actor-Critic), ou pelo valor da acção (como no modelo Q-learning). A tarefa aborda a questão através de condicionamento instrumental (Go/NoGo) e de condicionamento clássico (imagens subliminais). A análise dos dados comportamentais de ambas as abordagens foi concordante e de acordo com o modelo Actor-Critic. Esta conclusão sugere que os humanos seguem este modelo, baseando as suas decisões em erros de previsão computados usando valores de estados. , en= Since the late 1990s, a large number of studies have been suggesting reinforcement learning (RL) as a computational framework within which decision-making can be explained. In fact, several lines of evidence link a key RL signal, the temporal difference reward prediction error, to the concentration of phasic dopamine. However, there is still not a clear understanding about how the neuronal circuits employed in learning processes work, and therefore which RL model better explains them. Moreover, RL has described several algorithms whose main difference is the way in which prediction errors are computed. In this study a new probabilistic Go/NoGo task was designed and tested. The goal was to provide more insight regarding how prediction errors are computed in the human’s brain: if using state values (like in the Actor-Critic model), or action values (as in the Q-learning model). The task addresses the question through both instrumental (Go/NoGo) and classical conditioning (subliminal images). Behavioral data analyses from both approaches were in agreement, and in line with the Actor-Critic model. This conclusion suggests that humans follow this model, basing their decisions on prediction errors computed with state values. }
{pt=Actor-Critic, Q-learning, Erros de previsão, Tarefa Go/NoG, Dopamina, en=Actor-Critic, Q-learning, Prediction errors, Go/NoGo task, Dopamine}

dezembro 3, 2014, 9:30

Publicação

Obra sujeita a Direitos de Autor

Orientação

CO-ORIENTADOR

Tiago Vaz Maia

Instituto de Medicina Molecular, Faculdade de Medicina da Universidade de Lisboa, Av. Prof. Egas Moniz, 1649-028 Lisboa, Portugal

Professor Auxiliar

ORIENTADOR

Patrícia Margarida Piedade Figueiredo

Departamento de Bioengenharia (DBE)

Professor Auxiliar