Bibliografia adicional

Abaixo indicam-se algumas referências para artigos usados na disciplina.

  • O relatório técnico da autoria de Settles (2010) fornece uma visão abrangente sobre o tópico de aprendizagem activa.
  • O relatório técnico da autoria de Cassandra (1994) e o artigo na revista AI da autoria de Kaelbling et al. (1998) são dois excelentes textos de referência sobre processos de decisão Markovianos com observabilidade parcial.
  • O paper na revista OR da autoria de Smallwood e Sondik (1973) estabelece linearidade por troços e convexidade das funções de avaliação de POMDPs. Este artigo é complementado pelo trabalho na ICML de Singh et al. (1994), que estabelece alguns factos adicionais sobre POMDPs de forma intuitiva e fácil de visualizar.
  • O artigo no JAIR da autoria de Pineau et al. (2006) fornece uma visão geral sobre os métodos para resolução de POMDPs baseados em amostragem. Não só apresenta a teoria que suporta esta classe de métodos como também recensia os mais importantes métodos desta classe da altura. Este trabalho é complementado pelo artigo no JAAMAS da autoria de Shani et al. (2013), que descreve trabalhos mais recentes (desde 2006). Finalmente, o artigo no JAIR da autoria de Spaan e Vlassis (2005) apresenta o algoritmo PERSEUS que é, talvez, um dos mais usados nesta classe de métodos.
  • O artigo no JAIR da autoria de Kaelbling et al. (1996) constitui uma referência muito acessível sobre aprendizafem por reforço, apesar de algo desactualizada.
  • O artigo da autoria de Warmuth and Littlestone (1996) introduz o algoritmo de weighted majority.
  • Por último, os dois artigos da autoria de Peter Auer e collaboradores (2002 e 2003) cobrem, respectivamente, algoritmos para bandits estocásticos (UCB e variações) e adversariais (EXP3 e variações).

Referencias

  1. B. Settles. (2010) "Active learning literature survey." Tech. Report 1648, Univ. Wisconsin-Madison.
  2. A. Cassandra. (1994) "Optimal policies for partially observable Markov decision processes." Tech. Report CS-94-14, Dep. Computer Science, Brown University.
  3. L. Kaelbling, M. Littman, A. Cassandra. (1998) "Planning and acting in partially observable stochastic domains." Artificial Intelligence, 101:99-134.
  4. R. Smallwood, E. Sondik. (1973) "The optimal control of partially observable Markov processes over a finite horizon." Operations Research, 21(5): 1071-1088.
  5. S. Singh, T. Jaakkola, M. Jordan. (1994) "Learning without state-estimation in partially observable Markovian decision processes." In Proc. 11th Int. Conf. Machine Learning, pp. 284-292.
  6. J. Pineau, G. Gordon, S. Thrun. (2006) "Anytime point-based approximations for large POMDPs." J. Artificial Intelligence Res., 27:335-380.
  7. G. Shani, J. Pineau, R. Kaplow. (2013) "A survey of point-based POMDP solvers." Autonomous Agents and Multi-Agent Systems, 27(1):1-51.
  8. M. Spaan, N. Vlassis. (2005) "Perseus: Randomized point-based value iteration for POMDPs." J. Artificial Intelligence Res., 24:195-220.
  9. L. Kaelbling, M. Littman, A. Moore. (1996) "Reinforcement learning: A survey." J. Artificial Intelligence Res., 4:237-285.
  10. N. Littlestone, M. Warmuth. (1994) "The weighted majority algorithm." Information and Computation, 108: 212-261.
  11. P. Auer, N. Cesa-Bianchi, P. Fischer (2002) "Finite-time analysis of the multi-armed bandit problem." Machine Learning, 47:235-256.
  12. P. Auer, N. Cesa-Bianchi, Y. Freund, R. Schapire. (2003) "The non-stochastic multi-armed bandit problem." SIAM Journal on Computing, 32(1):48-77.