Dissertação

{en_GB=Sense Act - Dynamic Programming of Genetic Algorithms for Reinforced Learning in Measurement-based Decisions} {} EVALUATED

{pt=Esta tese aborda um problema onde há agentes que precisam de decidir com base em informações incompletas, ou seja, assumindo que eles não podem estar totalmente cientes de seu contexto. Em particular, a sua conscientização sobre o ambiente circundante é baseada em medições que podem ser solicitadas no momento e onde há um custo associado ao processo de medição e à qualidade da decisão. Para esse fim, foi criado um modelo chamado Measurement-based Decisions ("Decisões Baseadas em Medições") para definir o que é comum nos casos de uso. Para além disso, um agente de aprendizagem foi conceptualizado para seguir o modelo e resolver alguns dos desafios que ele apresenta. Esse agente, chamado SenseAct, possui uma fase de aprendizagem, na qual cria uma tabela de custos a partir de programação dinâmica e de algoritmos genéticos, e uma fase de decisão em tempo real, onde escolhe um de vários grupos de ações da tabela de custos a partir de uma tabela de distribuição de probabilidade. Como prova de conceito, apresenta melhores resultados, em termos de desempenho e de qualidade, do que abordagens como as abordagens greedy e lazy., en=This thesis tackles the problem of agents that need to decide which actions to take based on incomplete information, i.e., assuming that they cannot be fully aware of their context. In particular, their awareness of the surrounding environment is based on measurements that can be requested on demand, and where there is a cost associated both with the measurement process and with the quality of the decision. For that purpose, a model called Measurement-based Decisions has been made to set what is common in use cases with that same problem. Moreover, a learning agent has been conceptualized to follow the model, and solve some of the challenges it presents. This agent, called SenseAct, has a simulative learning phase where it creates a cost table through dynamic programming and genetic algorithms, and a real-time decision phase, where it chooses one of several groups of actions from the cost table through a probability distribution table. As a proof of concept, it presents better results, in performance and in quality, than straw men such as the greedy and the lazy approaches.}
{pt=Gestão de Emergências, Optimização Estocástica, Incerteza, Aprendizagem Reforçada, Algorithmo Genético, Programação dinâmica, en=Emergency Management, Stochastic Optimization, Uncertainty, Reinforcement Learning, Genetic Algorithm, Dynamic Programming}

Novembro 14, 2019, 9:30

Orientação

ORIENTADOR

Rodrigo Seromenho Miragaia Rodrigues

Departamento de Engenharia Informática (DEI)

Professor Catedrático