Dissertação
Analyzing the Double-descent Curve in Deep Learning EVALUATED
Esta dissertação visa reproduzir o fenómeno de descida dupla como descrito por Belkin, que sugere que as redes neurais terão melhor desempenho quando têm mais parâmetros livres do que pontos no conjunto de dados de treino utilizado. Primeiro, introduzimos conceitos básicos para entender como uma rede neural é treinada, antes de expandir para a teoria clássica de aprendizagem. Isso permitir-nos-á rever a abordagem clássica para a curva de "Bias-variance tradeoff" e como chegamos a essa propriedade. Em seguida, analisamos a regularização, que pode ser a razão pela qual regimes sobreparametrizados demonstram melhor desempenho. Após esta introdução teórica, analisamos trabalhos relacionados que mostram que o estudo de Belkin et al não é uma ocorrência isolada, mas uma das muitas experiências que originaram discussão na comunidade científica sobre o tradeoff entre bias e variância. Entre estes, estão resultados que visam entender o raciocínio por trás da diminuição do erro de generalização em redes sobreparametrizadas. A seguir mostraremos os resultados que obtivemos ao tentar replicar o fenómeno de descida dupla, o que nos levou a concluir que o fenómeno obtido por Belkin é uma consequência da metodologia utilizada no treino de redes neurais, resultante de diferentes métodos de inicialização para redes neurais sub e sobreparametrizadas, ou seja, a estratégia de reutilização de pesos empregue pelo autor, que leva a um severo overfitting próximo dos limites definidos.
novembro 21, 2022, 14:30
Publicação
Obra sujeita a Direitos de Autor
Orientação
ORIENTADOR
Departamento de Engenharia Informática (DEI)
Professor Auxiliar