Dissertação
{en=Mechanistic characterization of reinforcement learning in healthy humans using computational models} {} EVALUATED
{pt=A aprendizagem por reforços forneceu uma estrutura normativa para a análise de tomada de decisões. Vários estudos mostraram que existe uma ligação entre a aprendizagem por reforços e algumas estruturas neuronais, sendo que estas estão associadas a uma determinada ação computacional. Nomeadamente, as respostas de neurónios dopaminérgicos estão relacionadas com os erros de previsão utilizados nos algoritmos de diferenças temporais. A literatura em Machine Learning apresentou diferentes maneiras de calcular o erro de previsão, as quais estão associadas a diferentes algoritmos de diferenças temporais. Estes podem ser determinados pelo valor da ação (Q-learning) ou pelo valor do estado (Actor-Critic). Evidências neurocientíficas têm apoiado ambos os modelos, e por isso não existe ainda um mecanismo globalmente aceite. O objetivo desta tese é investigar e identificar qual dos modelos supracitados melhor descreve as escolhas realizadas por humanos saudáveis enquanto estão a executar uma tarefa probabilística Go/NoGo. Este paradigma é capaz de ortogonalizar ação e valência, e por isso, realça algumas diferenças mecanísticas entre os modelos de Q-learning e Actor-Critic. Para tal, nós utilizámos várias abordagens estatísticas. Em primeiro lugar, recorrendo a uma análise de regressão, tentámos identificar qual dos modelos descrevia melhor os dados do comportamento. Posteriormente, realizámos uma análise de componentes principais a fim de encontrar correlações entre as condições do paradigma, o que poderia fornecer mais uma evidência a favor de um dos modelos. Ambas as abordagens sugeriram que o modelo de Q-learning seria o mais correto. Este resultado está de acordo com estudos electrofisiológicos feitos em animais. , en=Reinforcement learning has provided a normative framework to analyse decision-making. A wealth of research has linked reinforcement learning to neural substrates, assigning them a particular computational role. Particularly, responses of dopamine neurons can be identified with the prediction errors computed in the temporal-difference learning algorithms. Machine learning literature has proposed different versions of calculating the error signal, associated with different temporal-difference algorithms. Particularly, they can be determined by the value of actions (Q-learning model) or by the value of states (Actor-Critic model). Neuroscientific findings have supported both models, and thus, there is still no commonly accepted mechanism. The aim of this thesis was to investigate and identify which of these two reinforcement learning models best describes the choices made by healthy humans when performing a modified probabilistic Go/NoGo task. This paradigm has the special feature of orthogonalizing action and valence and thus it enhances some mechanistic differences between the Q-learning and the Actor-critic models. For this purpose, we employed several statistical methods. Firstly, using a model fitting approach we tried to identify which of the aforementioned models best suited data. Secondly, we performed a Principal Component Analysis in order to find associations among conditions which could also provide evidence towards one of the models. Both approaches provided evidence towards the Q-learning framework which indicated that the prediction errors are determined by the value of actions. This result was in line with electrophysiological findings in animals. }
julho 14, 2014, 9:0
Publicação
Obra sujeita a Direitos de Autor
Orientação
CO-ORIENTADOR
Instituto de Medicina Molecular, Faculdade de Medicina da Universidade de Lisboa, Av. Prof. Egas Moniz, 1649-028 Lisboa, Portugal
Professor Auxiliar
ORIENTADOR
Patrícia Margarida Piedade Figueiredo
Departamento de Bioengenharia (DBE)
Professor Auxiliar