FenixEdu™

Dissertação

{en_GB=Leveraging Subsampling Techniques to Optimize Machine Learning Jobs in the Cloud} {} EVALUATED

Detalhes: {pt=Esta dissertação aborda o problema da otimização do treino de modelos de Aprendizagem Automática na nuvem. A eficiência desses trabalhos é afetada pelo ajuste dum grande número de parâmetros da configuração, pertencentes a duas classes principais: i) parâmetros do modelo e/ou do algoritmo de treino; ii) recursos da nuvem alocados para executar o trabalho. Técnicas do estado de arte abordam o problema de otimização usando abordagens baseadas em Otimização Bayesiana, onde um modelo de desempenho é utilizado para orientar a seleção da configuração a testar. As configurações selecionadas são testadas e a informação sobre sua qualidade é retroalimentada ao modelo, para melhorar o seu conhecimento e a qualidade das futuras etapas de exploração. Neste contexto, a presente dissertação investiga o uso de técnicas de subamostragem (ou seja, reduzir a quantidade de dados utilizados no treino dos modelos) para aumentar a eficiência de duas formas alternativas: i) reduzindo o custo do treinamento, ajustando a taxa de subamostragem do conjunto de dados utilizados para treino para balancear, de forma controlada, a precisão dos modelos resultantes e o custo computacional do treino; ii) reduzindo o custo das técnicas de Otimização Bayesiana, diminuindo, através de subamostragem, o custo de otimização. Foram propostos dois sistemas, Nephele e Fabulinus, para explorar estas duas alternativas, através do uso de subamostragem. Os resultados mostram que o custo de otimização pode ser largamente reduzido através do uso conjunto de dados subamostragem. O custo de treino duma configuração pode ser reduzido se os requisitos de desempenho o permitirem., en=This dissertation addresses the problem of optimizing the training of machine learning models in the cloud. The efficiency of these jobs is affected by the correct tuning of a large number of configuration parameters, belonging to two main classes: i) parameters of the model and/or the training algorithm; ii) cloud resources allocated to execute the job. State-of-the-art techniques address the optimization problem by employing approaches based on Bayesian Optimization, where a performance model is used to guide the selection of a configuration to test. The selected configurations are tested and the information on their quality is fed back to the model, to improve its knowledge and the quality of future exploration steps. In this context, this dissertation investigates the use of subsampling techniques (i.e., reducing the amount of data over which models are trained) to enhance efficiency in two alternative ways: i) reducing the training cost by adjusting the subsampling rate of the input dataset to trade-off, in a controlled way, the accuracy of the resulting models and the computational demand of the training process; ii) reducing the cost of BO-based optimization techniques by decreasing, thanks to subsampling, the cost of testing configurations. We proposed two systems, Nephele and Fabulinus, to exploit these two alternatives created through the use of subsampling. We present the evaluation of the proposed systems. The results show that the optimization cost can be largely reduced testing subsampled dataset. The training cost of a configuration can be reduced if the performance requirements allow it.}
Keywords: {pt=Computação na Nuvem, Optimização de Aplicações, Aprendizagem Automática, Subamostragem, Custo de Exploração, Custo de Produção, en=Cloud Computing, Optimization of Applications, Machine Learning, Subsampling, Exploration Cost, Cost in Production}

Discussão: novembro 14, 2019, 10:30