Dissertação

Using Biological Features to Improve Deep Neural Network Models for Vision EVALUATED

Redes neuronais convolucionais (CNNs) são modelos de visão computacional bem estabelecidos que continuam a atingir um desempenho competitivo em classificação de imagens. No entanto, as CNNs ainda apresentam dificuldades ao generalizar perante diversos conjuntos de dados, permanecendo vulneráveis a corrupções de imagem e a ataques adversariais. Estudos recentes mostraram que a robustez destes modelos pode ser melhorada ao introduzir um bloco frontal em CNNs que simula algumas características do córtex visual primário (V1) nos primatas, antes de uma arquitetura CNN tradicional. Nesta tese, expandimos esse trabalho e propomos um novo bloco frontal, chamado de RetinaBlock, que simula o processamento visual pré-cortical. Validamos a plausibilidade biológica do RetinaBlock referente a diversas propriedades de resposta e introduzimos ainda duas novas famílias de CNNs. As RetinaNets, que integram um RetinaBlock seguido de uma arquitetura CNN padrão, mostram uma melhoria relativa de robustez de 10,2% em comparação com o modelo base; e as EVNets, que adicionam ainda o bloco de V1 após o RetinaBlock, apresentam um ganho relativo de 16,1%. A melhoria na robustez foi observada em todas as diferentes corrupções com uma ligeira diminuição na precisão para imagens sem perturbações, generalizando-se para diferentes arquiteturas e conjuntos de dados.
Visão computacional, classificação de imagens, modelação do sistema visual, robustez

outubro 28, 2024, 15:30

Documentos da dissertação ainda não disponíveis publicamente

Orientação

ORIENTADOR

Arlindo Manuel Limede de Oliveira

Departamento de Engenharia Informática (DEI)

Professor Catedrático

ORIENTADOR

Tiago Guerra Marques

Fundação Champalimaud

Investigador