FenixEdu™

Dissertação

Learning to search for and detect objects in foveal images using deep learning EVALUATED

Detalhes: O sistema visual humano processa imagens com diferentes graus de resolução, onde a fóvea, uma região especializada da retina, captura a zona com maior acuidade visual que gradualmente decresce na direção da periferia do campo de visão. No entanto, a maioria dos métodos de localização de objetos atuais são baseados em imagens adquiridas por sensores de resolução espacial invariante, deste modo ignorando mecanismos de atenção biológicos. Este trabalho utiliza um modelo de previsão de pontos de fixação como seletor de regiões de interesse para cada classe de objetos alvo, emulando, assim, a atenção humana guiada por objetivos. As imagens foveadas em cada fixação são posteriormente classificadas de modo a determinar a presença ou ausência do alvo na cena. Ao longo da análise deste método de dois estágios em \textit{pipeline}, examinamos os resultados obtidos durante a utilização de representações panóticas ou de alto nível e fornecemos uma nova codificação da verdade para dados de sequências de fixação que refletem a estrutura espacial do problema. Por fim, apresentamos um modelo de multitarefa capaz de realizar a predição dos movimentos sacádicos e da deteção do alvo simultaneamente, permitindo a transferência de conhecimento entre as duas tarefas. Concluímos que, devido à natureza complementar das tarefas, o processo de treino beneficiou da partilha de conhecimento, resultando numa melhoria do desempenho face aos valores de base da abordagem anterior.
Keywords: Procura Visual, Deteção de Objetos, Previsão de Fixações Visuais, Visão Foveada, Aprendizagem Profunda

Discussão: dezembro 2, 2022, 11:30