Dissertação

{en_GB=Deep Learning Based Visual Attention Models for Salient Object Recognition} {} EVALUATED

{pt=Os métodos de processamento de imagem sofreram grandes avanços nas últimas décadas. No entanto, ainda são computacionalmente muito dispendiosos. Por esta motivo, atualmente têm sido pesquisadas abordagens biologicamente inspiradas de forma a tornar o processamento de uma cena mais eficiente. Em particular, neste trabalho, propomos uma estrutura geral computacional inspirada pela visão humana. Esta framework é capaz de realizar tarefas de reconhecimento de objetos combinando Redes Neurais Convolucionais (CNNs) com técnicas de visão foveal. Ela integra duas metodologias dissociadas de atenção visual que podem ser realizadas sequencialmente: (1) um modelo de Saliência Foveal capaz de orientar o foco de atenção para as regiões de interesse, e (2) um modelo de Focagem Piramidal para realizar o reconhecimento de objetos quando o sistema já fixou o alvo. Usando uma partição do conjunto de dados de validação do ILSVRC 2012 e uma rede GoogLeNet pré-treinada, realizamos vários testes para avaliar o trade-off entre o desempenho do reconhecimento e o custo computacional e que parâmetros dos modelos o influenciam. Demonstramos que, usando o método de Saliência Foveal, há um aumento significativo no desempenho de classificação para objetos não centrados ao realizar pelo menos duas iterações sacádicas. Quanto ao modelo de Focagem Piramidal, embora o custo computacional aumente linearmente com o número de níveis de pirâmide, ele alcança consistentemente melhores resultados do que a abordagem clássica de redimensionar a imagem para o tamanho da rede. Esses resultados promissores destacam a importância do desenvolvimento de soluções visuais biomiméticas para tarefas visuais., en=Image processing methods have made great strides in the last decades. Nonetheless, they are still very computationally expensive. For this reason, in order to more efficiently process a scene, biologically inspired approaches are a currently being researched. In particular in this work, we propose a general computational framework inspired by human vision. This framework is capable of performing object recognition tasks by combining Convolutional Neural Networks (CNNs) with foveal vision techniques. It integrates two dissociated visual attentional methodologies that can be performed sequentially: (1) a Foveal Saliency model capable of orienting the focus of attention to the regions of interest, and (2) a Pyramidal Focus model to perform object recognition when the system has already fixated the target. Using a partition of the ILSVRC 2012 validation data set, and a pre-trained GoogLeNet network, we conducted several tests to evaluate the trade-off between the recognition performance and the computational cost, and which model parameters influence it. We demonstrated that by using the Foveal Saliency method there is a significant increase on the classification performance for non-centered objects when using at least two saccade iterations. As for the Pyramid Focus model, although the computation time increases linearly with the number of pyramid levels, it consistently outperforms the classical approach of resizing the image to the size of the network. These promising results highlight the importance of developing biomimetic visual solutions for visual tasks.}
{pt=Atenção Visual, Redes Neuronais Convolucionais, Reconhecimento de Objetos, Foveação, Saliência, Pirâmide Gaussiana, en=Visual Attention, Convolutional Neural Networks (CNNs), Object Recognition, Foveation, Saliency, Gaussian Pyramid}

Junho 26, 2019, 10:0

Orientação

ORIENTADOR

José Alberto Rosado dos Santos Vitor

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Professor Catedrático

ORIENTADOR

Alexandre José Malheiro Bernardino

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Professor Associado