Disciplina
Aprendizagem por Reforço
Área
Competências Transversais > Competências Transversais
Activa nos planos curriculares
DEAEIC > DEAEIC > 3º Ciclo > Opções > Aprendizagem por Reforço
DEAEIC2006 > DEAEIC2006 > 3º Ciclo > Aprendizagem por Reforço
Nível
Série de problemas individual.
Tipo
Não Estruturante
Regime
Semestral
Carga Horária
1º Semestre
1.5 h/semana
105.0 h/semestre
Objectivos
Fornecer aos alunos uma resenha das principais ideias em aprendizagem por reforço, desde os conceitos base até aos tópicos mais avançados.
Programa
Introdução: O que é a aprendizagem por reforço. Aprendizagem por reforço como um problema de decisão. Processos de decisão de Markov. Funções-valor e políticas. Programação dinâmica. Métodos tabulares: O dilema experimentação-exploração. Multiarmed bandits e o algoritmo UCB. Métodos de Monte Carlo e de diferenças temporais. Planeamento e aprendizagem: Métodos baseados em modelos. A arquitectura DYNA. MCTS. Aproximação de funções: Aproximações lineares. Controlo on-policy com aproximação. Controlo off-policy com aproximação. Aprendizagem por reforço profunda. Tópicos avançados: Rastos de eligibilidade. O algoritmo TD(lambda). Métodos de gradiente na política. A arquitectura actor-crítico.
Metodologia de avaliação
Série de problemas individual.
Pré-requisitos
Componente Laboratorial
Princípios Éticos
Componente de Programação e Computação
Componente de Competências Transversais
Bibliografia
Principal
Reinforcement Learning: An Introduction