Dissertação

{en_GB=Deep Networks for Human Visual Attention: A hybrid model using foveal vision} {} EVALUATED

{pt=A atenção visual desempenha um papel fundamental nos sistemas naturais e artificiais no que toca ao controlo dos recursos percetuais. Recentemente, foram desenvolvidas redes neuronais profundas para o reconhecimento de milhares de objetos que geram autonomamente características visuais otimizadas por treino com conjuntos extensos de dados. Estas características têm tido muito sucesso noutros problemas visuais tais como a segmentação de objetos, o seguimento e, recentemente, a atenção visual. Este trabalho propõe uma estrutura biologicamente plausível de classificação e localização de objetos que incorpora mecanismos de atenção bottom-up e top-down, combinando redes neuronais convolucionais com visão foveal. É feita uma passagem feed-forward para obter as previsões da rede neuronal quanto às etiquetas das classes. De seguida, é obtida uma proposta da localização do objecto para as top-5 classes e a imagem é reclassificada com atenção sendo comparadas duas configurações: uma uniforme (Cartesiana) e uma não uniforme (foveada). Na primeira, a imagem é recortada segundo a proposta de localização, descartando o contexto. Na segunda, é aplicado o modelo de foveação visual onde a imagem é foveada a partir do centro da localização proposta para um dado objeto. A principal contribuição deste trabalho reside na avaliação da utilização de imagens com resolução uniforme e foveada. Foi possível estabelecer a relação entre estes métodos e avaliar a informação preservada em cada tipo de sensor. Os resultados demonstram que não é necessário guardar e/ou transmitir toda a informação numa imagem com alta-resolução pois o desempenho obtido na tarefa de classificação satura., en=Visual attention plays a central role in natural and artificial systems in control perceptual resources. Recently, deep neural networks have been developed for the recognition of thousands of objects that autonomously generate visual characteristics optimized by training with extensive sets of data. These characteristics have been very successful in other visual problems such as object segmentation, tracking and, recently, visual attention. This work proposes a biologically inspired object classification and localization framework that incorporates bottom-up and top-down attentional mechanisms, combining Deep Convolutional Neural Networks with foveal vision. A feed-forward pass is made to get neural network predictions for class labels. Then, a proposal of the location of the object for the top-5 classes is obtained and the image is reclassified with attention being compared two configurations: one uniform (Cartesian) and one non-uniform (foveal). In the first, the image is cropped according to the location proposal, discarding the context. In the second one, the visual foveation model is applied where the image is foveated from the center of the proposed location for a given object. The main contribution of this work lies in the evaluation of the use of images with uniform and non-uniform resolution. It was possible to establish the relationship between these methods and to evaluate the information preserved in each type of sensor. The results demonstrate that it is not necessary to store and/or transmit all the information in a high-resolution image because the performance obtained in the classification task saturates.}
{pt=Atenção visual, classificação e localização de objetos, redes neuronais profundas, visão computacional, visão variante no espaço., en=Computer vision, deep neural networks, object classification and localization, space-variant vision, visual attention.}

maio 25, 2017, 9:0

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

José Alberto Rosado dos Santos Victor

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Professor Catedrático

ORIENTADOR

Alexandre José Malheiro Bernardino

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Professor Associado