Programa

Planeamento, Aprendizagem e Decisão Inteligente

Mestrado Bolonha em Engenharia e Ciência de Dados

Mestrado Bolonha em Engenharia Informática e de Computadores - Alameda

Mestrado Bolonha em Engenharia Informática e de Computadores - Taguspark

Programa

1. Introdução (4 aulas – 6 horas). a. Probabilidades (revisão) b. Cadeias de Markov. Conceito de estabilidade estocástica. c. Modelos de Markov escondidos. Os algoritmos forward-backward e Viterbi. 2. Decisão face à incerteza (7 aulas – 10.5 horas): a. Utilidade esperada. Teoria da decisão e optimização. b. Processos de decisão de Markov (MDPs). Valor de estado e valor de estado-acção. As noções de política e de política óptima. c. Iteração em valores para avaliação de políticas. Iteração em política. Convergência. d. Iteração em valores para optimização de políticas. Convergência. e. Processos de decisão de Markov parcialmente observáveis (POMDPs). Beliefs. Planeamento em POMDPs. Métodos baseados em pontos. 3. Aprendizagem por exemplos (4 aulas – 6 horas): a. Aprendizagem supervisionada (revisão). b. Teoria da decisão e inferência Bayesiana. O classificador óptimo de Bayes. c. Aprendizagem activa em modelos Bayesianos. d. Aprendizagem em modelos de decisão. Aprendizagem por reforço inversa. 4. Aprendizagem por reforço (5 aulas – 7.5 horas): a. Aprendizagem por reforço. b. Aprendizagem por reforço baseada em modelos. c. Aprendizagem por reforço baseada em valor: os algoritmos TD-learning e Q-learning. Convergência. d. Aprendizagem por reforço baseada em política: o algoritmo de policy gradient. 5. Experimentação vs. exploração (2 aulas – 3 horas): a. Predição sequencial: os algoritmos weighted majority e EWAF; b. Bandits estocásticos: o algoritmo UCB. c. Bandits adversariais: o algoritmo EXP3. 6. Aplicações (2 aulas – 3 horas): a. TD-Gammon: Aplicação de aprendizagem por reforço ao jogo backgammon. b. Monte-carlo tree search. O algoritmo UCT e aplicações ao jogo Go.