Disciplina

Área

Área Científica de Inteligência Artificial > Tecnologia de Inteligência Artificial

Activa nos planos curriculares

MEIC-A 2021 > MEIC-A 2021 > 2º Ciclo > Area Principal > Agrupamentos > Robótica Inteligente > Planeamento, Aprendizagem e Decisão Inteligente

MEIC-T 2018 > MEIC-T 2018 > 2º Ciclo > Agrupamentos > Sistemas Inteligentes > Planeamento, Aprendizagem e Decisão Inteligente

Min-RSI 2021 > Min-RSI 2021 > Planeamento, Aprendizagem e Decisão Inteligente

MEIC-T 2021 > MEIC-T 2021 > 2º Ciclo > Área Principal > Agrupamentos > Robótica Inteligente > Planeamento, Aprendizagem e Decisão Inteligente

MECD2019 > MECD2019 > 2º Ciclo > Opções > Planeamento, Aprendizagem e Decisão Inteligente

Min-EG 2022 > Min-EG 2022 > Inteligência Artificial e Robótica > Planeamento, Aprendizagem e Decisão Inteligente

MEIC-T 2015 > MEIC-T 2015 > 2º Ciclo > Agrupamentos > Robótica Inteligente > Planeamento, Aprendizagem e Decisão Inteligente

MEIC-A 2015 > MEIC-A 2015 > 2º Ciclo > Agrupamentos > Robótica Inteligente > Planeamento, Aprendizagem e Decisão Inteligente

Nível

A avaliação inclui duas componentes: . Uma componente teórica, avaliada através de uma prova escrita individual, e que corresponde a 50% da nota final; . Uma componente laboratorial, através da realização de trabalhos de laboratório em grupos de 2, e que corresponde a 50% da nota final.

Tipo

Não Estruturante

Regime

Semestral

Carga Horária

1º Semestre

2.0 h/semana

1.5 h/semana

119.0 h/semestre

Objectivos

Espera-se que, após a frequência da cadeira, os alunos sejam capazes de: 1. Reconhecer os principais desafios envolvidos no desenvolvimento de sistemas inteligentes em cenários com incerteza; 2. Conhecer e aplicar as principais técnicas de planeamento e aprendizagem neste tipo de cenários.

Programa

Parte I. Introdução 1. Probabilidades. Optimização. 2. Cadeias de Markov. Estabilidade estocástica. 3. HMM. Os algoritmos forward-backward e Viterbi. Parte II. Decisão face à incerteza 4. Utilidade esperada. Teoria da decisão e optimização. 5. MDPs. Valor de estado e de estado-acção. Optimalidade. Os algoritmos de value iteration e policy iteration. 6. POMDPs. Beliefs. Planeamento em POMDPs. Parte III. Aprendizagem 7. Aprendizagem supervisionada (revisão). Aprendizagem activa. Aprendizagem por reforço inversa. 8. Aprendizagem por reforço (RL). . RL baseada em modelos. . RL baseada em valor: os algoritmos TD, Q-learning e SARSA. . RL baseada em políticas: policy-gradient e arquitectura actor-crítico. 9. Predição sequencial. Os algoritmos Weighted majority e EWA. Multi-armed bandits.

Metodologia de avaliação

A avaliação inclui duas componentes: . Uma componente teórica, avaliada através de uma prova escrita individual, e que corresponde a 50% da nota final; . Uma componente laboratorial, através da realização de trabalhos de laboratório em grupos de 2, e que corresponde a 50% da nota final.

Pré-requisitos

Álgebra linear; Cálculo I e II; Probabilidades e Estatística; Aprendizagem.

Componente Laboratorial

A componente laboratorial corresponde a um conjunto de 5 trabalhos de laboratório, de natureza computacional, nos quais os alunos implementam os algoritmos discutidos nas aulas teóricas em problemas práticos. Lab 1. Cadeias de Markov: os alunos deverão descrever um fenómeno através de uma cadeia de Markov e estudar as suas propriedades computacionais. Lab 2. MDPs: os alunos deverão descrever um problema de decisão usando MDPs e resolvê-lo através dos vários algoritmos discutidos na aula teórica. Lab 3. POMDPs: os alunos deverão descrever um problema de decisão usando POMDPs e resolvê-lo através dos vários algoritmos discutidos na aula teórica. Lab 4. Aprendizagem por exemplos: os alunos deverão resolver um problema de decisão usando aprendizagem a partir de exeplos, implementando e correndo os algoritmos adequados. Lab 5. Aprendizagem por reforço: os alunos deverão resolver um problema de decisão utilizando aprendizagem por reforço, implementando e correndo os algoritmos adequados.

Princípios Éticos

Todos os membros de um grupo são responsáveis pelo trabalho do grupo. Em qualquer avaliação, todo aluno deve divulgar honestamente qualquer ajuda recebida e fontes usadas. Numa avaliação oral, todo aluno deverá ser capaz de apresentar e responder a perguntas sobre toda a avaliação.

Componente de Programação e Computação

N/A

Componente de Competências Transversais

. Pensamento crítico e inovador - avaliado na parte de modelação nos trabalhos de laboratório 1-3, e na discussão crítica dos resultados obtidos, avaliada nos trabalhos de laboratório 1-5. Estas duas competências têm um impacto directo em cerca de 15% da nota de laboratório (7.5% da nota da disciplina). . Competências interpessoais (nomeadamente trabalho em equipa) - os trabalhos de laboratório são realizados em grupos de dois alunos, sendo assim considerada, de forma implícita, esta competência transversal.

Bibliografia

Principal

Artificial Intelligence: A Modern Approach, 3rd Ed.

S. Russel, P. Norvig

2010

Prentice-Hall


Planning and Learning under Uncertainty

F.S. Melo

2020

Lecture notes


Secundária

Markov Decision Processes: Discrete Stochastic Dynamic Programming

M. Puterman

2014

Wiley Interscience


Pattern Recognition and Machine Learning

C. Bishop

2006

Springer


Reinforcement Learning: An Introduction, 2nd Ed.

R. Sutton, A. Barto

2018

MIT Press