Dissertação

{en_GB=Malware Detection via Machine Learning} {} EVALUATED

{pt=O uso de técnicas de aprendizagem supervisionada para a detecção de programas maliciosos tem sido cada vez mais utilizada para melhorar métodos clássicos de detecção. Este trabalho desenvolveu um modelo para a detecção de programas maliciosos, analisou o impacto da confiabilidade dos dados de treino no resultado final do classificador, e definiu métricas para verdade absoluta. Para tal, desenvolvemos três cenários para conjuntos de dados, cujo conteúdo varia entre amostras inequivocamente maliciosas e legítimas para amostras mais ambíguas e reais. Analisámos cada cenário em condições laboratoriais, onde metodologias padrão de validação cruzada são aplicadas, descartando a importância temporal na detecção de programas maliciosos, e também em condições de mundo real, onde a dependência temporal é proposta e aplicada. Além disso, modificámos o nosso modelo original de modo a possibilitar a extração de mais informação sobre uma amostra, ao implementar um modelo com multiplas camadas, e de maneira a melhorar os resultados finais, ao usar informação dinâmica sobre a amostras. Usámos depois a nossa metodologia baseada na ordem temporal das amostras para reduzir o tamanho dos dados de treino sem comprometer resultados ótimos, concluindo que existe um número ideal de dados de treino, temporalmente consistentes com os dados de validação, tal que o resultado final é ótimo. Finalmente, fornecemos aplicações práticas do nosso modelo ao implementar o serviço de detecção de programas maliciosos, que é também inserido num servidor de correio eletrónico para validar anexos., en=The use of supervised learning techniques for malware detection has been used increasingly to aid classical classification methods. In this work we aim at developing a malware detection model, analyzing the impact of the reliability of the training dataset on the final result of the classifier, and metrics to define the ground-truth. For this, we propose three datasets' scenarios whose content range from unambiguous malware and goodware samples to more ambiguous and real ones. We analyze each scenario in laboratory conditions, where standard cross-validation methodologies are applied, discarding the importance of time in malware detection, and also in real-world conditions, where temporal-based dependencies are proposed and applied. Furthermore, we modify our original model to both enrich the extractable information, by implementing a multi layer model, and to improve the final results, by using dynamic information about the samples. We then use our temporal-based methodologies to reduce the size of the training dataset without compromising optimal results, concluding that there exists an ideal number of necessary training folds, temporally consistent with the validation fold, that maximizes the overall score. Finally, we provide practical applications of our model by implementing a malware detection service, which is also used in a email server pipeline to scan attachments.}
{pt=Segurança, Aprendizagem Automática, Detecção de Programas Maliciosos, Consistência Temporal, Verdade Absoluta, en=Security, Machine Learning, Malware Detection, Temporal Consistency, Ground Truth}

Junho 8, 2018, 13:0

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Pedro Miguel dos Santos Alves Madeira Adão

Departamento de Engenharia Informática (DEI)

Professor Auxiliar