Dissertação

{en_GB=Learning Agent in the Ms. Pacman Vs Ghosts game} {} EVALUATED

{pt=Devido ao sucesso que o algoritmo de Pesquisa em Árvore Monte Carlo teve noutros jogos, surgiu a ideia de aplicar este algoritmo também ao jogo do Ms. Pac-Man. Já existia, antes, uma competição para agentes jogarem Ms. Pac-Man, mas a maioria usavam técnicas baseadas em regras. A ideia para esta tese, consiste em usar o MCTS, não em tempo real, mas sim como o agente auxiliar que irá jogar o jogo com um tempo limite maior, criando assim um dataset a priori, que depois será usado para treinar uma rede neuronal, esta sim, que irá jogar o jogo em tempo real. Os resultados foram depois comparados a um dos melhores agentes desta competição, ficou em segundo lugar mundialmente e em primeiro a nível europeu. Os resultados obtidos foram encorajadores, com o agente auxiliar de MCTS a alcançar uma pontuação média de 2749 em trinta jogos, comparando aos 2871 pontos alcançados pelo agente usado para comparação. Durante os trinta jogos, as acções escolhidas em cada estado foram guardados, assim como o estado. Este conjunto de treino, foi então usado para treinar duas redes neuronais. Uma através de classificação, com as classes para cada estado a serem as acções, e uma rede neuronal treinada por regressão, onde as classes eram os valores de todas as acções para cada estado. Os melhores resultados alcançados por cada rede neuronal, foram 2103 e 1437 pontos, respectivamente., en=Due to the success of the Monte Carlo Tree Search algorithm in several games, surged the idea to apply this method to the Ms. Pac-Man game. There was, already, a competition for agents playing Ms. Pac-Man. The first agents were rule-based, until this idea to use MCTS appeared. The idea for this thesis consist on using the MCTS algorithm, as an auxiliar agent that will play the game without the time restrictions and create a dataset a priori, to then train a neural network that will play the game in real time. These results were then compared to an agent who came in second in the worldwide competition and first in the european competition. The results achieved were encouraging, with the MCTS agent achieving an average score of 2749 points after thirty games, comparing to the 2871 achieved by the agent used as benchmark. The moves chosen by the MCTS agent, in the thirty games, were then saved to a file and used to train two neural networks, one through classification using as labels the action chosen, and another by regression, using the values of each action for each game state. The best results achieved by both neural networks were 2103 points and 1437 points, respectively. This can, probably, be explained due to the low number of samples combined with a vast number of features in the dataset. }
{pt=Ms. Pac-Man, Monte Carlo Tree Search, Redes Neuronais, en=Ms. Pac-Man, Monte Carlo Tree Search, Neural Networks}

Janeiro 13, 2021, 16:30

Orientação

ORIENTADOR

José Alberto Rodrigues Pereira Sardinha

Departamento de Engenharia Informática (DEI)

Professor Auxiliar