Dissertação

{en_GB=SoC-FPGA Binary Convolutional Neural Networks} {} EVALUATED

{pt=O objectivo deste trabalho é o de desenvolver um sistema embebido hardware/software para processar redes convolucionais totalmente binarizadas num sistema SoC-FPGA. As redes convolucionais convencionais requerem elevado poder computacional e capacidade de memória, e representam um desafio para executar em dispositivos de baixa potência. As redes neurais binárias são treinadas com pesos e inputs de 1-bit e, consequentemente reduzem os requisitos de memória e a complexidade computacional ao substituírem as operações aritméticas por operações lógicas. O sistema desenvolvido executa uma rede neural binarizada, composta por 6 camadas convolucionais e 3 camadas totalmente conectadas, para executar reconhecimento de imagem. Das 6 camadas convolucionais, 5 são totalmente binarizadas e consomem 90% do tempo total de execução. Um hardware IP foi especificamente projectado para acelerar estas 5 camadas, podendo também ser ajustado para correr as restantes camadas. A solução hardware/software proposta foi demonstrada num dispositivo zynq-7010, para classificar imagens de dois conjuntos de dados: CIFAR-10 (91% precisão) e o German traffic sign recognition benchmark (95% precisão). O componente de hardware dedicado é capaz de executar as 5 camadas convolucionais totalmente binarizadas 150x mais rápido do que o software. A aplicação hardware/software final consegue ser acelerada 116x (em comparação com o software) quando executada a camada convolucional não totalmente binarizada e as 2 camadas totalmente conectadas utilizando o hardware IP., en=The objective of this work is to develop a hardware/software embedded system to process fully binarized convolutional networks on a low cost SoC-FPGA system. Conventional convolutional neural networks require high computational power and memory capacity, and are a challenge to execute on low-power devices. Binarized neural networks are trained using 1- bit weights and inputs, and so, reduce the memory requirements and the computational complexity by replacing most arithmetic operations with bit-wise operations. The system developed runs a binarized neural network, consisting of 6 convolutional layers and 3 fully connected layers, to perform image recognition. Of the 6 convolutional layers, 5 are fully binarized and consume over 90% of the total network execution time. A hardware IP was specifically designed to accelerate these 5 fully binarized layers, but which can also be adapted to execute the remaining layers. The proposed hardware/software solution was demonstrated on a Zynq-7010 device, to classify images in two benchmark datasets: CIFAR-10 (91% accuracy) and the German traffic sign recognition benchmark (95% accuracy). The dedicated hardware component is able to execute the 5 fully binarized convolutional layers 150x faster than the software baseline. The final hardware/software application is able to achieve a 116x speedup (over the software baseline) by also executing the non-binarized convolutional layer and 2 of the fully connected layers using the hardware IP.}
{pt=Redes binárias, VGG, FPGA, CIFAR-10, Sistema embebido, Zynq, en=Binarized networks, Hardware design, VGG, FPGA, CIFAR-10, Zynq}

Janeiro 21, 2021, 14:30

Orientação

ORIENTADOR

Mário Pereira Véstias

ISEL

Professor Coordenador

ORIENTADOR

Horácio Cláudio De Campos Neto

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Professor Associado