Dissertação

Malware Detection via Machine Learning EVALUATED

O uso de técnicas de aprendizagem supervisionada para a detecção de programas maliciosos tem sido cada vez mais utilizada para melhorar métodos clássicos de detecção. Este trabalho desenvolveu um modelo para a detecção de programas maliciosos, analisou o impacto da confiabilidade dos dados de treino no resultado final do classificador, e definiu métricas para verdade absoluta. Para tal, desenvolvemos três cenários para conjuntos de dados, cujo conteúdo varia entre amostras inequivocamente maliciosas e legítimas para amostras mais ambíguas e reais. Analisámos cada cenário em condições laboratoriais, onde metodologias padrão de validação cruzada são aplicadas, descartando a importância temporal na detecção de programas maliciosos, e também em condições de mundo real, onde a dependência temporal é proposta e aplicada. Além disso, modificámos o nosso modelo original de modo a possibilitar a extração de mais informação sobre uma amostra, ao implementar um modelo com multiplas camadas, e de maneira a melhorar os resultados finais, ao usar informação dinâmica sobre a amostras. Usámos depois a nossa metodologia baseada na ordem temporal das amostras para reduzir o tamanho dos dados de treino sem comprometer resultados ótimos, concluindo que existe um número ideal de dados de treino, temporalmente consistentes com os dados de validação, tal que o resultado final é ótimo. Finalmente, fornecemos aplicações práticas do nosso modelo ao implementar o serviço de detecção de programas maliciosos, que é também inserido num servidor de correio eletrónico para validar anexos.
Segurança, Aprendizagem Automática, Detecção de Programas Maliciosos, Consistência Temporal, Verdade Absoluta

junho 8, 2018, 13:0

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Pedro Miguel dos Santos Alves Madeira Adão

Departamento de Engenharia Informática (DEI)

Professor Auxiliar