Disciplina

Área

Área Científica de Inteligência Artificial > Tecnologia de Inteligência Artificial

Activa nos planos curriculares

MEIC-A 2021 > MEIC-A 2021 > 2º Ciclo > Area Principal > Agrupamentos > Robótica Inteligente > Planeamento, Aprendizagem e Decisão Inteligente

MEIC-T 2018 > MEIC-T 2018 > 2º Ciclo > Agrupamentos > Sistemas Inteligentes > Planeamento, Aprendizagem e Decisão Inteligente

Min-RSI 2021 > Min-RSI 2021 > Planeamento, Aprendizagem e Decisão Inteligente

MEIC-T 2021 > MEIC-T 2021 > 2º Ciclo > Área Principal > Agrupamentos > Robótica Inteligente > Planeamento, Aprendizagem e Decisão Inteligente

MECD2019 > MECD2019 > 2º Ciclo > Opções > Planeamento, Aprendizagem e Decisão Inteligente

Min-EG 2022 > Min-EG 2022 > Inteligência Artificial e Robótica > Planeamento, Aprendizagem e Decisão Inteligente

MEIC-T 2015 > MEIC-T 2015 > 2º Ciclo > Agrupamentos > Robótica Inteligente > Planeamento, Aprendizagem e Decisão Inteligente

MEIC-A 2015 > MEIC-A 2015 > 2º Ciclo > Agrupamentos > Robótica Inteligente > Planeamento, Aprendizagem e Decisão Inteligente

Nível

4 séries de problemas realizadas individualmente durante o semestre (AC). Um projecto realizado em grupos de dois, onde os alunos deverão propôr um problema de IA e resolvê-lo utilizando técnicas estudadas na cadeira (preferencialmente alinhado com os respectivos temas de tese) (P). Como parte da avaliação do projecto, os alunos deverão apresentar o seu trabalho publicamente. A nota final à cadeira será calculada como: NF = 0.6 * AC + 0.4 * P

Tipo

Não Estruturante

Regime

Semestral

Carga Horária

1º Semestre

3.0 h/semana

1.5 h/semana

147.0 h/semestre

Objectivos

1. Reconhecer os principais desafios envolvidos no desenvolvimento de sistemas inteligentes em cenários com incerteza e/ou adversariais 2. Conhecer e aplicar as principais técnicas de planeamento e aprendizagem neste tipo de cenários

Programa

1. Introdução (1 aula – 1.5 horas). 2. Decisão face à incerteza (6 aulas – 9 horas): a. Utilidade esperada. Teoria da decisão e optimização. b. Cadeias de Markov. Controlo e observabilidade. c. Processos de decisão de Markov (MDPs). Valores de estado e estado-ação. Noções de política e política óptima. d. Iteração em valores para avaliação de políticas. Iteração em política. Convergência. e. Iteração em valores para optimização de políticas. Convergência. f. Processos de decisão de Markov parcialmente observáveis (POMDPs). Crenças. Planeamento. Métodos baseados em pontos. 3. Decisão em sistemas adversos (3 aulas – 4.5 horas): a. Jogos na forma normal. Melhor resposta. Equilíbrio de Nash. b. Jogos sequenciais. Forma estendida. Jogos estocásticos. c. O cálculo de equilíbrios de Nash e a sua complexidade. 4. Aprendizagem (3 aulas – 4.5 horas): a. Teoria da decisão e inferência Bayesiana. Classificador óptimo de Bayes. b. Redes de Bayes. Inferência. Algoritmo max-sum. c. Aprendizagem de modelos sequenciais. Algoritmo forward-backward (Baum-Welch). Aplicação à aprendizagem de POMDPs. 5. Aprendizagem e decisão (6 aulas – 9 horas): a. Aprendizagem ativa. Teoria da aprendizagem. b. Aprendizagem sequencial. Algoritmo weighted majority. Bandits. c. Bandits estocásticos. Regret. Algoritmo UCB. Garantias de performance. d. Bandits adversos. Algoritmo EXP3. Garantias de performance. e. Aprendizagem em processos de decisão de Markov. Aprendizagem por reforço baseada em modelos. f. Aprendizagem por reforço baseada em valor: algoritmos TD-learning e Q-learning. Convergência. 6. Aplicações (2 aulas – 3 horas): a. TD-Gammon: Aplicação de aprendizagem por reforço ao jogo backgammon. b. Bandits e planeamento: Monte-carlo tree search. Algoritmo UCT e aplicações ao jogo Go.

Metodologia de avaliação

4 séries de problemas realizadas individualmente durante o semestre (AC). Um projecto realizado em grupos de dois, onde os alunos deverão propôr um problema de IA e resolvê-lo utilizando técnicas estudadas na cadeira (preferencialmente alinhado com os respectivos temas de tese) (P). Como parte da avaliação do projecto, os alunos deverão apresentar o seu trabalho publicamente. A nota final à cadeira será calculada como: NF = 0.6 * AC + 0.4 * P

Pré-requisitos

Componente Laboratorial

Princípios Éticos

Componente de Programação e Computação

Componente de Competências Transversais

Bibliografia

Principal

Artificial Intelligence: A Modern Approach, 3rd Edition

S. Russel, P. Norvig

2010

Prentice-Hall


Prediction, Learning and Games

N. Cesa Bianchi, G. Lugosi

2004

Cambridge University Press


Secundária

Markov Decision Processes

M. Puterman

1994

Wiley Interscience


Reinforcement Learning: An Introduction

R. Sutton, A. Barto

1998

MIT Press


Pattern Recognition and Machine Learning

C. Bishop

2004

Cambridge University Press