Dissertação

{en_GB=Multi/Many-Objective Optimization in Feature Selection} {} APPROVED

{pt=A seleção de variáveis é um passo crucial em qualquer algoritmo de inteligência artificial, que não só simplifica o modelo, mas também aumenta a capacidade preditiva. Admitindo que a remoção das variáveis desnecessárias não melhora simultaneamente todas as medidas de performance, aplicações diferentes exigem medidas distintas. Adicionalmente pode ser vantajoso utilizar várias métricas no processo de otimização. Este trabalho lida com classificação binária utilizando várias métricas diferentes, e também com classificação de múltiplas classes, dividindo o problema em sub-problemas binários, e pode ser dividido em três grandes contribuições: a análise da relação entre medidas de performance dos classificadores, identificando redundância; a comparação do desempenho do processo de otimização utilizando diferentes conjuntos de métricas; Prototipagem de uma interface de decisão que permite examinar detalhadamente todas as soluções disponíveis. Os resultados mostram que, em classificação binária, das 9 métricas analisadas somente entre 4 a 5 são não-redundantes, enquanto que problemas de múltiplas classes divididos em sub-problemas binários têm a totalidade de objetivos não-redundantes. Algoritmos do estado da arte de otimização multi-objectivo foram aplicados ao problema de seleção de variáveis, e os resultados sugerem uma melhoria de performance, em termos de convergência e diversidade, ao utilizar um maior número de objetivos em classificação binária, mesmo se redundantes. Em relação à classificação com múltiplas classes, embora não haja melhorias em termos de convergência, a diversidade de soluções é melhorada quando se divide o problema em vários sub-problemas binários e se o utiliza a exatidão para cada., en=Feature selection, the removal process of non-essential variables in a dataset, is a crucial step in any machine learning algorithm since it not only simplifies the model but also increases the predictor's performance. However, admitting that the removal of unnecessary features does not improve all performance metrics simultaneously, different applications require distinct classifier's performance metrics. Additionally, it might be advantageous to use diverse metrics for the process of finding good feature subsets. This work has three major contributions relating to binary classification using a wide-set of wrapper performance metrics and multi-class classification dividing it into several binary sub-problems: firstly, a relationship analysis between wrapper's performance metrics is made, comparing and conjecturing which are made redundant by each other; The second contribution is a first study on the sets of classifier's performance metrics' performance in feature selection, testing if the inclusion of more than 2 objectives is beneficial; Lastly, a feature selection decision interface was built, which aids in the solution selection process. The first analysis shows that less than a handful of the tested performance metrics for binary classification is not simultaneously improved in the feature selection process. Using state of the art multi-objective algorithms, results suggest a better performance, in terms of convergence and diversity, of feature selection when using a high number of objectives in binary classification, despite some being redundant. In relation to multi-class classification, only diversity is improved when dividing it into several binary sub-problems and using accuracy to each one.}
{pt=Seleção de Variáveis, Avaliação Wrapper, Computação Evolucionária, Otimização Multi-Objetivo, Interface de Decisão., en=Feature Selection, Wrapper Evaluation, Evolutionary Computation, Multi-Objective Optimization, Decision Interface.}

Orientação

ORIENTADOR

Susana Margarida da Silva Vieira

Departamento de Engenharia Mecânica (DEM)

Prof Auxiliar Convidado

ORIENTADOR

João Filipe Pinto Ribau

Departamento de Engenharia Mecânica (DEM)

Prof Auxiliar Convidado