Dissertação
Autonomous Learning System with Reinforcement Learning on FPGA EVALUATED
Aprendizagem por Reforço (RL) é uma área proeminente da Inteligência Artificial (AI), permitindo que agentes autónomos aprendam estratégias eficazes através de interações com o seu ambiente. A maioria das acelerações de RL em hardware foca-se na inferência, negligenciando o treino no dispositivo, especialmente com Redes Neuronais (NN) com otimizadores mais sofisticados. Este estudo aborda essa lacuna propondo um sistema hardware-software que acelera todo o processo de RL, com ênfase na retropropagação utilizando o Otimizador Adam, em Field Programmable Gate Arrays (SoC-FPGAs). Projetámos um sistema hardware/software para implementar o algoritmo Deep Q-Learning (DQL) para o jogo Snake em duas SoC-FPGAs: uma Zynq-7000 para uma versão compacta com menos recursos e uma Zynq UltraScale+ para uma configuração avançada. Desenvolvemos aceleradores de hardware para os métodos de DL mais exigentes, enquanto as tarefas menos complexas de RL correram no processador embebido. As variáveis no IP de hardware foram representadas em vírgula fixo, devido ao menor consumo de recursos e melhor desempenho. Um estudo aprofundado sobre precisão e paralelização garantiu um equilíbrio ótimo entre desempenho e eficiência para cada dispositivo. Os resultados demonstraram melhorias significativas de desempenho, alcançando acelerações de 3.26x numa FPGA Zynq-7000 e 20.69x numa FPGA Zynq UltraScale+ (relativamente às implementações em software nos processadores embebidos). Estes resultados demonstram a viabilidade de implementações em FPGA de RL com o treino acelerado de NN utilizando o Otimizador Adam, evidenciando o potencial para aprendizagem em tempo real para agentes autónomos com recursos limitados.
novembro 22, 2024, 10:30
Documentos da dissertação ainda não disponíveis publicamente
Orientação
ORIENTADOR
Horácio Cláudio De Campos Neto
Departamento de Engenharia Electrotécnica e de Computadores (DEEC)
Professor Associado