FenixEdu™

Dissertação

Data mining techniques to predict sewer condition EVALUATED

Detalhes: A gestão apropriada de colectores de águas residuais é uma questão importante na sociedade actual, com sérias implicações financeiras e sanitárias. A capacidade de priorizar, de forma adequada, as inspecções de manutenção aos colectores pode consequentemente significar um aumento significativo da qualidade de vida das populações envolvidas. Nesta tese, técnicas para atingir este objectivo são estudadas. Usando artifícios de Data Mining, a meta é prever que colectores têm maior probabilidade de estar perto de falhar. O algoritmo preditivo em destaque é a ”Random Forest”, mas outros são também estudados, como florestas condicionais, regressão logística e Naive Bayes. De forma a ter uma ideia mais geral do problema, bem como para obter melhores resultados, técnicas de selecção de variáveis são revistas e aplicadas, em particular informação mútua e ”stepbackwards search”. Uma vez que (felizmente) poucos colectores estão em estado grave, também foram estudados métodos para lidar com classes desniveladas. Os resultados obtidos não identificam um claro vencedor, embora ”ensembles” e técnicas para equilibrar as classes tenham obtido bons resultados. Estes são complementados por medidas de confiança para diminuir a influência da variabilidade. Paralelamente a esta investigação, uma restrição do problema a colectores com um tipo de problema específico é testada, e os seus resultados comparados com os do modelo geral.
Keywords: Classificação, Colectores de águas residuais, Random Forest, Classes desniveladas

Discussão: junho 30, 2015, 14:0