Dissertação

A behavioral investigation of the algorithms underlying reinforcement learning in humans EVALUATED

Desde o final da década de 90, que vários estudos têm sugerido a aprendizagem por reforços (reinforcement learning) como sendo uma estrutura normativa computacional na qual os processos de tomada de decisão podem ser explicados. De facto, várias evidências têm relacionado um sinal chave desta estrutura normativa, os erros de previsão utilizados nos algoritmos de diferenças temporais, com a concentração de dopamina fásica. No entanto, ainda não existe um conhecimento claro de como o circuito neuronal envolvido nos processos de aprendizagem funciona, e portanto qual o modelo computacional que melhor o explica. Além disso, a aprendizagem por reforços tem descrito vários algoritmos que diferem na maneira como os erros de previsão são calculados. Neste estudo uma nova tarefa probabilística Go/NoGo foi desenhada e testada. O objectivo foi fornecer um maior conhecimento sobre o cálculo dos erros de previsão no cérebro humano: se determinados pelo valor do estado (como no modelo Actor-Critic), ou pelo valor da acção (como no modelo Q-learning). A tarefa aborda a questão através de condicionamento instrumental (Go/NoGo) e de condicionamento clássico (imagens subliminais). A análise dos dados comportamentais de ambas as abordagens foi concordante e de acordo com o modelo Actor-Critic. Esta conclusão sugere que os humanos seguem este modelo, baseando as suas decisões em erros de previsão computados usando valores de estados.
Actor-Critic, Q-learning, Erros de previsão, Tarefa Go/NoG, Dopamina

Dezembro 3, 2014, 9:30

Publicação

Obra sujeita a Direitos de Autor

Orientação

CO-ORIENTADOR

Tiago Vaz Maia

Instituto de Medicina Molecular, Faculdade de Medicina da Universidade de Lisboa, Av. Prof. Egas Moniz, 1649-028 Lisboa, Portugal

Professor Auxiliar

ORIENTADOR

Patrícia Margarida Piedade Figueiredo

Departamento de Bioengenharia (DBE)

Professor Auxiliar