FenixEdu™

Dissertação

{en_GB=Missing Data Imputation for Industrial Big Data} {} EVALUATED

Detalhes: {pt=Dados Incompletos é um problema que afecta todos os praticantes da Aprendizagem Máquina. Desde simples soluções com base na estatística elementar, até complexas maquinações da nova era da Inteligência Artificial, os contributos académicos até à data conclui o seguinte - não há resposta certa. A solução é altamente dependente do tipo de dados, do tipo de problema, e até de conhecimento prévio sobre o domínio. Dados Incompletos é um problema aberto. Esta dissertação propõe uma solução leve e escalável para resolver Dados Incompletos de Indústria - um modelo Auto-Codificador. Ao combinar técnicas modernas de Aprendizagem Profunda, e métodos históricamente provados para tratar dados temporais - Transformações de Fourier - o modelo proposto é uma solução sinergética entre o estado-da-arte e métodos de Indústria. Propomos um quadro de avaliação para avaliar métodos de imputação, tendo em foco os dados temporais. Os resultados quer em dados de Turbinas Éolicas quer em dados de consumo de electricidade no foro familiar, mostra a capacidade e eficácia com que o modelo proposto resolve o problema de Dados Incompletos. Adicionalmente, mostramos também os benefícios das representações extraídas pelo modelo., en=Missing Data is a problem that is felt by all Machine Learning practitioners. Ranging from simple statistical solutions, to complex Artificial Intelligence approaches, research and academia has mainly shown that there is no correct solution when solving this problem. It is context dependent - on the type of data, type of problem, and even domain knowledge. Missing Data is still an open problem. This dissertation proposes a scalable, lightweight Autoencoder model for solving Missing Data in Industrial Big Data. By combining modern Deep Learning approaches, and historically proven methods to handle Time-Series data - Fourier Transformations - the proposed model is a synergistic approach for Industrial Problems. We provide a generic framework of evaluation for Imputation methods, tailored for Time-Series data. The results on Wind-Turbine and Household Electrical Consumption data, show the ability of the proposed model to handle Missing Data in different data conditions, while providing structured and expressive representations for Time-Series data.}
Keywords: {pt=Aprendizagem Profunda, Dados Industriais em Massa, Transformações de Fourier, Dados Incompletos, en=Deep Learning, Industrial Big Data, Fourier Transformations, Missing Data}

Discussão: outubro 7, 2020, 10:30