Disciplina
Planeamento, Aprendizagem e Decisão Inteligente
Área
Área Científica de Inteligência Artificial > Tecnologia de Inteligência Artificial
Activa nos planos curriculares
MEIC-A 2021 > MEIC-A 2021 > 2º Ciclo > Area Principal > Agrupamentos > Robótica Inteligente > Planeamento, Aprendizagem e Decisão Inteligente
MEIC-T 2018 > MEIC-T 2018 > 2º Ciclo > Agrupamentos > Sistemas Inteligentes > Planeamento, Aprendizagem e Decisão Inteligente
Min-RSI 2021 > Min-RSI 2021 > Planeamento, Aprendizagem e Decisão Inteligente
MEIC-T 2021 > MEIC-T 2021 > 2º Ciclo > Área Principal > Agrupamentos > Robótica Inteligente > Planeamento, Aprendizagem e Decisão Inteligente
MECD2019 > MECD2019 > 2º Ciclo > Opções > Planeamento, Aprendizagem e Decisão Inteligente
Min-EG 2022 > Min-EG 2022 > Inteligência Artificial e Robótica > Planeamento, Aprendizagem e Decisão Inteligente
MEIC-T 2015 > MEIC-T 2015 > 2º Ciclo > Agrupamentos > Robótica Inteligente > Planeamento, Aprendizagem e Decisão Inteligente
MEIC-A 2015 > MEIC-A 2015 > 2º Ciclo > Agrupamentos > Robótica Inteligente > Planeamento, Aprendizagem e Decisão Inteligente
Nível
• 5 trabalhos de laboratório preparados em casa e realizadas no laboratório durante o semestre (AC). Estes trabalhos são realizados em grupos de dois. • Dois testes, realizados individualmente durante o semestre (NT). • A nota final da cadeira (NF) será calculada como: NF = 0.5 NT + 0.5 AC
Tipo
Não Estruturante
Regime
Semestral
Carga Horária
1º Semestre
3.0 h/semana
1.5 h/semana
147.0 h/semestre
Objectivos
1. Reconhecer os principais desafios envolvidos no desenvolvimento de sistemas inteligentes em cenários com incerteza 2. Conhecer e aplicar as principais técnicas de planeamento e aprendizagem neste tipo de cenários
Programa
1. Introdução (4 aulas – 6 horas). a. Probabilidades (revisão) b. Cadeias de Markov. Conceito de estabilidade estocástica. c. Modelos de Markov escondidos. Os algoritmos forward-backward e Viterbi. 2. Decisão face à incerteza (7 aulas – 10.5 horas): a. Utilidade esperada. Teoria da decisão e optimização. b. Processos de decisão de Markov (MDPs). Valor de estado e valor de estado-acção. As noções de política e de política óptima. c. Iteração em valores para avaliação de políticas. Iteração em política. Convergência. d. Iteração em valores para optimização de políticas. Convergência. e. Processos de decisão de Markov parcialmente observáveis (POMDPs). Beliefs. Planeamento em POMDPs. Métodos baseados em pontos. 3. Aprendizagem por exemplos (4 aulas – 6 horas): a. Aprendizagem supervisionada (revisão). b. Teoria da decisão e inferência Bayesiana. O classificador óptimo de Bayes. c. Aprendizagem activa em modelos Bayesianos. d. Aprendizagem em modelos de decisão. Aprendizagem por reforço inversa. 4. Aprendizagem por reforço (5 aulas – 7.5 horas): a. Aprendizagem por reforço. b. Aprendizagem por reforço baseada em modelos. c. Aprendizagem por reforço baseada em valor: os algoritmos TD-learning e Q-learning. Convergência. d. Aprendizagem por reforço baseada em política: o algoritmo de policy gradient. 5. Experimentação vs. exploração (2 aulas – 3 horas): a. Predição sequencial: os algoritmos weighted majority e EWAF; b. Bandits estocásticos: o algoritmo UCB. c. Bandits adversariais: o algoritmo EXP3. 6. Aplicações (2 aulas – 3 horas): a. TD-Gammon: Aplicação de aprendizagem por reforço ao jogo backgammon. b. Monte-carlo tree search. O algoritmo UCT e aplicações ao jogo Go.
Metodologia de avaliação
• 5 trabalhos de laboratório preparados em casa e realizadas no laboratório durante o semestre (AC). Estes trabalhos são realizados em grupos de dois. • Dois testes, realizados individualmente durante o semestre (NT). • A nota final da cadeira (NF) será calculada como: NF = 0.5 NT + 0.5 AC
Pré-requisitos
Componente Laboratorial
Princípios Éticos
Componente de Programação e Computação
Componente de Competências Transversais
Bibliografia
Principal
Artificial Intelligence: A Modern Approach, 3rd Edition
Prediction, Learning and Games
Secundária
Reinforcement Learning: An Introduction
Pattern Recognition and Machine Learning