Dissertação

{en_GB=Data mining techniques to predict sewer condition} {} EVALUATED

{pt=A gestão apropriada de colectores de águas residuais é uma questão importante na sociedade actual, com sérias implicações financeiras e sanitárias. A capacidade de priorizar, de forma adequada, as inspecções de manutenção aos colectores pode consequentemente significar um aumento significativo da qualidade de vida das populações envolvidas. Nesta tese, técnicas para atingir este objectivo são estudadas. Usando artifícios de Data Mining, a meta é prever que colectores têm maior probabilidade de estar perto de falhar. O algoritmo preditivo em destaque é a ”Random Forest”, mas outros são também estudados, como florestas condicionais, regressão logística e Naive Bayes. De forma a ter uma ideia mais geral do problema, bem como para obter melhores resultados, técnicas de selecção de variáveis são revistas e aplicadas, em particular informação mútua e ”stepbackwards search”. Uma vez que (felizmente) poucos colectores estão em estado grave, também foram estudados métodos para lidar com classes desniveladas. Os resultados obtidos não identificam um claro vencedor, embora ”ensembles” e técnicas para equilibrar as classes tenham obtido bons resultados. Estes são complementados por medidas de confiança para diminuir a influência da variabilidade. Paralelamente a esta investigação, uma restrição do problema a colectores com um tipo de problema específico é testada, e os seus resultados comparados com os do modelo geral., en=The proper management of wastewater pipes is an important issue in today’s society, with serious financial and health implications. The ability to adequately prioritise maintenance inspections on these pipes may consequently significantly increase the quality of life of the affected populations. In this thesis, techniques to achieve this are studied. Using Data Mining procedures the goal is to be able to predict which pipes are more likely to be close to failure. The main prediction method used is the random forest, although other algorithms are also studied, in particular, conditional forests, logistic regression and Naive Bayes. To have a more global view of the problem, as well as to be able to obtain better predictions, variable selection techniques are also studied and applied, namely, mutual information and step-backwards search. Since it was found that (fortunately) only very rarely are pipes found to be in poor state, the examination of the problem extends to class balancing methodologies. Results show that there is no clear winning algorithm, although both ensembling and class balancing techniques manage to boost the performance of the tested algorithms. The results obtained are complemented by confidence measures to try to placate variability. Parallel to this investigation, a restriction of the problem to the pipes having a specific type of damage is conducted, and its results compared with the more general model.}
{pt=Classificação, Colectores de águas residuais, Random Forest, Classes desniveladas, en=Classification, Wastewater pipes, Random Forest, Class imbalance.}

Junho 30, 2015, 14:0

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Rita Sofia Dias Salgado Brito

LNEC

Investigador Auxiliar

ORIENTADOR

Maria da Conceição Esperança Amado

Departamento de Matemática (DM)

Professor Auxiliar