FenixEdu™

Dissertação

{pt_PT=Visual Attention with Sparse and Continuous Transformations} {} EVALUATED

Detalhes: {pt=Os mecanismos de atenção visual são um componente importante das redes neuronais profundas com aplicação em visão computacional, permitindo-lhes identificar elementos relevantes em conjuntos finitos de objetos ou regiões. Para representar a pontuação indicativa da importância de cada feature no domínio probabilístico, estes mecanismos empregam uma função diferenciável -- usualmente a função softmax, cujo resultado é estritamente denso, atribuindo probabilidade de massa a todos os elementos do conjunto. Esta densidade é, muitas vezes, um desperdício, porque não evita que features irrelevantes sejam consideradas, afetando negativamente a interpretabilidade dos modelos. Até agora, a atenção visual foi apenas aplicada a domínios discretos, o que pode levar a uma perda de foco, devido a uma dispersão excessiva da atenção sobre a imagem. Nesta tese, exploramos alternativas de domínio contínuo aos modelos discretos, propondo soluções que se focam tanto na continuidade como na esparsidade das distribuições de atenção, sendo adequadas para selecionar regiões simultaneamente compactas e esparsas (e.g., elipses). A primeira caraterística encoraja a seleção de regiões contínuas, enquanto a segunda permite destacar as features mais importantes, atribuindo uma probabilidade nula às partes irrelevantes. Utilizamos o facto de os Jacobianos destas transformações serem covariâncias generalizadas para derivar algoritmos de retropropagação eficientes, tanto para distribuições unimodais como multimodais. Experiências em visual question answering mostram que os nossos modelos contínuos permitem gerar mapas de atenção mais suaves (aparentemente mais próximos da perceção humana), conduzindo também a melhorias de precisão em relação a um modelo de base treinado com os mesmos dados. , en=Visual attention mechanisms have become an important component of neural network models for Computer Vision applications, allowing them to attend to finite sets of objects or regions and identify relevant features. A key component of attention mechanisms is the differentiable transformation that maps scores representing the importance of each feature into probabilities. The usual choice is the softmax transformation, whose output is strictly dense, assigning a probability mass to every image feature. This density is wasteful, given that non-relevant features are still taken into consideration, making attention models less interpretable. Until now, visual attention has only been applied to discrete domains -- this may lead to a lack of focus, where the attention distribution over the image is too scattered. Inspired by the continuous nature of images, we explore continuous-domain alternatives to discrete attention models. We propose solutions that focus on both the continuity and the sparsity of attention distributions, being suitable for selecting compact and sparse regions such as ellipses. The former encourages the selected regions to be contiguous and the latter is able to single out the relevant features, assigning exactly zero probability to irrelevant parts. We use the fact that the Jacobian of these transformations are generalized covariances to derive efficient backpropagation algorithms for both unimodal and multimodal attention distributions. Experiments on Visual Question Answering show that continuous attention models generate smooth attention maps that seem to better relate with human judgment, while achieving improvements in terms of accuracy over grid-based methods trained on the same data. }
Keywords: {pt=aprendizagem profunda, mecanismos de atenção visual, transformações contínuas, esparsidade, en=deep learning, visual attention mechanisms, continuous transformations, sparsity}

Discussão: janeiro 5, 2021, 11:0