Dissertação

{en_GB=Active Perception: Scene Exploration using Foveal Vision} {} EVALUATED

{pt=A perceção ativa e visão foveal são as bases do nosso sistema de visão. Enquanto a visão foveal reduz a quantidade de informação a processa, a perceção ativa irá direcionar os olhos para partes promissoras do campo de visão. Juntos, permitem uma perceção detalhada dos objetos com reduzida complexidade a nı́vel neuronal. Desenvolvemos um método que combina ambos os conceitos para explorar e identificar todos os objetos numa imagem com o menor número de mudanças focais. Um sensor foveal percorre a imagem sequencialmente enquanto cria um mapa semântico, escolhendo em cada iteração o local com maior ganho de informação, no que diz respeito à identificação dos objetos. O nosso trabalho utiliza as imagens foveadas como entrada de um detetor de objetos estado-da-arte, cujas pontuações são modeladas por uma distribuição de Dirichlet que depende da distância para a fóvea, denotado Modelo de Observação Foveal. Após cada nova sacada, este Modelo é usado para executar uma Fusão Sequencial das pontuações de deteção num mapa global. Com as distribuições atualizadas em cada ponto de mapa, é tomada uma decisão baseada em medidas teoréticas de informação para encontrar o próximo melhor ponto que maximiza o nosso conhecimento do mundo. Apesar da “névoa” nas periferias, mostramos que é possı́vel combinar imagens foveadas com detetores de objetos estado-da-arte usando os nossos modelos propostos. Além disso, não só melhoram a identificação de objetos em 2-3%, como também reduzem 3x (em média) o número de sacadas necessárias para obter desempenhos semelhantes à escolha aleatória do próximo ponto focal., en=Active perception and foveal vision are the foundations of our visual system. While foveal vision reduces the amount of information to process at any time instance, active perception will direct the eyes to promising parts of the visual field. Together, they allow a detailed perception of the objects on the environment with limited neuronal processing resources. We develop a method that combines both concepts to explore and identify all the objects on an image with the least number of gaze shifts. A foveal sensor will scan the image sequentially and create a semantic map of the scene, choosing at each step the location with higher information gain, regarding the identification of the objects. Our framework uses the foveated images as input to a state-of-the-art object detector, whose scores are modelled by a Dirichlet distribution that depends on the distance to the fovea, denoted Foveal Observation Model. After each new saccade, this Model is used to perform a Sequential Fusion of the detection scores in a global map. With the updated distributions at each map point, a decision based on information theoretic measures is made to find the next-best-viewpoint that maximizes our knowledge of the world. Despite the blur, we show that it is possible to combine foveated images with state-of-the-art object detectors using our proposed models. Furthermore, our models not only improve the identification of objects by 2-3%, but also reduce 3x (in average) the number of required gaze shifts to achieve similar performances against randomly choosing the next viewpoint.}
{pt=Perceção Ativa, Visão Foveal, Deteção de Objetos, Procura de Objetos Ativa, Fusão de Classificadores, en=Active Perception, Foveal Vision, Object Detection, Active Object Search, Fusion of Classifiers}

setembro 23, 2021, 8:0

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Alexandre José Malheiro Bernardino

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Professor Associado