Dissertação

{pt=Learning from Imbalanced Neuropsychological Data} {} EVALUATED

{pt=O desbalanceamento de classes é o desequilíbrio no número de instâncias de diferentes classes, em bases de dados usadas para classificação. Quando o desbalanceamento é grave e/ou acompanhado por outras complexidades dos dados pode comprometer o sucesso da classificação. A performance dos classificadores mais comuns é degradada e as métricas de avaliação tipicamente usadas no contexto desbalanceado tornam-se inadequadas Neste trabalho, o problema do desbalanceamento é estudado em dados de testes neuropsicológicos no contexto da doença de Alzheimer, com o intuito de diagnosticar e prever a conversão para demência em pacientes com deficiências cognitivas pouco severas (mild cognitive impairments (MCI)). É investigado o efeito do desbalanceamento em quatro classificadores. Bagging e duas técnicas com custos, minimização do risco de Bayes e MetaCost, são testadas nesses classificadores. A sensibilidade relativamente ao desbalanceamento por parte das métricas no contexto desbalanceado é discutida. Uma nova métrica independente da proporção de classes é proposta, chamada compromisso normalizado (normalized compromise (NComp)) que avalia a utilidade de um modelo, regulando o número de falsos positivos. Os efeitos do desequilíbrio e os benefícios da aplicação de bagging, minimização do risco de Bayes e MetaCost foram díspares para diferentes classificadores. O classificador naïve Bayes foi robusto relativamente ao desbalanceamento, enquanto as árvores de decisão foram instáveis. Foi possível concluir que métodos proporcionaram o melhor benefício. Os resultados das redes TAN e das máquinas de suporte vectorial foram inconclusivos e específicos para cada base de dados., en=Class imbalance is the disparity in the number of instances of different classes in datasets used for classification. This problem affects medical diagnosis applications. When the imbalance is severe and/or accompanied by dataset complexities, it impairs classification. The performance of standard learners is degraded and assessment metrics commonly used in imbalanced classification become inadequate. In this work, the problem of imbalanced data is studied using Alzheimer’s disease neuropsychological data, with the aim of diagnosis and prognosis of dementia in patients reporting mild cognitive impairments. The effect of the imbalance on four state-of-the-art classifiers is investigated. Bagging and two cost-sensitive strategies, Bayes risk minimization and MetaCost, are tested on those classifiers. The sensitivity to class skew of common imbalance learning metrics is discussed. A new skew-independent metric is proposed, called normalized compromise (NComp), which evaluates the usefulness of a model by regulating the number of false positives. The effects of the imbalance and the benefits of applying bagging, risk minimization and MetaCost were variable for different classifiers. The naïve Bayes classifier was robust to class imbalance, whereas decision trees were instable. For these learners, it was possible to conclude which methods provided the best improvements. Results of the TAN Bayes and SVM classifiers were inconclusive and dataset-specific.}
{pt=aprendizagem desbalanceada, classificação, doença de Alzheimer, testes neuropsicológicos, métricas de avaliação, en=imbalanced learning, classification, Alzheimer’s disease, neuropsychological tests, assessment metrics}

dezembro 12, 2012, 9:0

Orientação

CO-ORIENTADOR

Sara Alexandra Cordeiro Madeira

Departamento de Engenharia Informática (DEI)

Professor Auxiliar

ORIENTADOR

Alexandra Sofia Martins de Carvalho

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Professor Auxiliar