Dissertação

Analyzing the Double-descent Curve in Deep Learning EVALUATED

Esta dissertação visa reproduzir o fenómeno de descida dupla como descrito por Belkin, que sugere que as redes neurais terão melhor desempenho quando têm mais parâmetros livres ​​do que pontos no conjunto de dados de treino utilizado. Primeiro, introduzimos conceitos básicos para entender como uma rede neural é treinada, antes de expandir para a teoria clássica de aprendizagem. Isso permitir-nos-á rever a abordagem clássica para a curva de "Bias-variance tradeoff" e como chegamos a essa propriedade. Em seguida, analisamos a regularização, que pode ser a razão pela qual regimes sobreparametrizados demonstram melhor desempenho. Após esta introdução teórica, analisamos trabalhos relacionados que mostram que o estudo de Belkin et al não é uma ocorrência isolada, mas uma das muitas experiências que originaram discussão na comunidade científica sobre o tradeoff entre bias e variância. Entre estes, estão resultados que visam entender o raciocínio por trás da diminuição do erro de generalização em redes sobreparametrizadas. A seguir mostraremos os resultados que obtivemos ao tentar replicar o fenómeno de descida dupla, o que nos levou a concluir que o fenómeno obtido por Belkin é uma consequência da metodologia utilizada no treino de redes neurais, resultante de diferentes métodos de inicialização para redes neurais sub e sobreparametrizadas, ou seja, a estratégia de reutilização de pesos empregue pelo autor, que leva a um severo overfitting próximo dos limites definidos.
Aprendizagem, Redes Neurais, Sobreparameterização, Curva de descida dupla

novembro 21, 2022, 14:30

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Andreas Miroslaus Wichert

Departamento de Engenharia Informática (DEI)

Professor Auxiliar