FenixEdu™

Disciplina

Aprendizagem por Reforço

Área

Competências Transversais > Competências Transversais

Activa nos planos curriculares

DEAEIC > DEAEIC > 3º Ciclo > Opções > Aprendizagem por Reforço

DEAEIC2006 > DEAEIC2006 > 3º Ciclo > Aprendizagem por Reforço

Nível

Série de problemas individual.

Tipo

Não Estruturante

Regime

Semestral

Carga Horária

1º Semestre

Aula Teórica (T): 1.5 h/semana

Trabalho Autónomo: 105.0 h/semestre

Créditos ECTS:

Objectivos

Fornecer aos alunos uma resenha das principais ideias em aprendizagem por reforço, desde os conceitos base até aos tópicos mais avançados.

Programa

Introdução: O que é a aprendizagem por reforço. Aprendizagem por reforço como um problema de decisão. Processos de decisão de Markov. Funções-valor e políticas. Programação dinâmica. Métodos tabulares: O dilema experimentação-exploração. Multiarmed bandits e o algoritmo UCB. Métodos de Monte Carlo e de diferenças temporais. Planeamento e aprendizagem: Métodos baseados em modelos. A arquitectura DYNA. MCTS. Aproximação de funções: Aproximações lineares. Controlo on-policy com aproximação. Controlo off-policy com aproximação. Aprendizagem por reforço profunda. Tópicos avançados: Rastos de eligibilidade. O algoritmo TD(lambda). Métodos de gradiente na política. A arquitectura actor-crítico.

Metodologia de avaliação

Série de problemas individual.

Pré-requisitos

Componente Laboratorial

Princípios Éticos

Componente de Programação e Computação

Componente de Competências Transversais

Bibliografia

Principal

Título Reinforcement Learning: An Introduction

Autor(es) R. Sutton and A. Barto

Ano 1998

Referência MIT Press

Departamento de Engenharia Informática (Site descontinuado; Novo Site em https://dei.tecnico.ulisboa.pt)