Disciplina Curricular

Aprendizagem por Reforço TAIA

Diploma de Estudos Avançados em Engenharia Informática e de Computadores - DEAEIC2006

Contextos

Grupo: DEAEIC2006 > 3º Ciclo

Período:

Peso

4.5 (para cálculo da média)

Objectivos

Fornecer aos alunos uma resenha das principais ideias em aprendizagem por reforço, desde os conceitos base até aos tópicos mais avançados.

Programa

Introdução: O que é a aprendizagem por reforço. Aprendizagem por reforço como um problema de decisão. Processos de decisão de Markov. Funções-valor e políticas. Programação dinâmica. Métodos tabulares: O dilema experimentação-exploração. Multiarmed bandits e o algoritmo UCB. Métodos de Monte Carlo e de diferenças temporais. Planeamento e aprendizagem: Métodos baseados em modelos. A arquitectura DYNA. MCTS. Aproximação de funções: Aproximações lineares. Controlo on-policy com aproximação. Controlo off-policy com aproximação. Aprendizagem por reforço profunda. Tópicos avançados: Rastos de eligibilidade. O algoritmo TD(lambda). Métodos de gradiente na política. A arquitectura actor-crítico.

Metodologia de avaliação

Série de problemas individual.

Disciplinas Execução

2021/2022 - 1º Semestre

2020/2021 - 1º Semestre

2019/2020 - 1º Semestre

2018/2019 - 1ºSemestre

2017/2018 - 2ºSemestre

2017/2018 - 1ºSemestre

2016/2017 - 2ºSemestre

2015/2016 - 2º Semestre

2014/2015 - 2º Semestre

2013/2014 - 2 Semestre

2013/2014 - 1 Semestre

2009/2010 - 2 Semestre

2008/2009 - 2 Semestre