FenixEdu™

Dissertação

{en_GB=Feature Selection using LAID and its Implementation on High-Performance Computing Systems -A parallel computing approach using Python and HDF5} {} EVALUATED

Detalhes: {pt=Dos muitos desafios atuais que a crescente disponibilidade de dados lança à sociedade e organizações destaca-se a capacidade de coletar, armazenar, processar, analisar e extrair conhecimento em tempo útil. Nesta dissertação o foco é o processamento de datasets altamente dimensionados, como os gerados pelas técnicas de High-throughput sequencing (HTS), cada vez mais comuns em áreas como a bioinformática. De entre as técnicas de redução de dimensionalidade a seleção de atributos tornou-se crucial ao permitir reduzir a alta dimensionalidade de grandes quantidades de dados, que sem esse tratamento permaneceriam com utilidade limitada. Uma possível abordagem para a realizar e que permite reduzir consideravelmente a dimensão sem aumentar a inconsistência dos dados é a utilização de Análise Lógica de Dados Inconsistentes (LAID). Vários estudos recentes, demostraram as suas potencialidades na resolução deste problema e evidenciaram as suas vantagens como uma metodologia sistemática, robusta, de fácil interpretação e capaz de lidar com dados inconsistentes. Os mesmos estudos revelaram tempos de processamento acima do desejado e apontaram a solução para a execução dos algoritmos usando processamento paralelo e o recurso a computação de alto desempenho (HPC). Este trabalho representa mais um contributo nesse esforço ao abordar formas de armazenamento dos datasets adequadas ao processamento paralelo, soluções de paralelização dos algoritmos, configuração do ambiente HPC e finalmente os testes na Infraestrutura Nacional de Computação Distribuída (INCD). O que permite descrever como reduzir os tempos de processamento para o utilizador final, alcançando uma redução satisfatória de 82% relativa ao melhor tempo sequencial. , en=Of the many current challenges that the increasing availability of data poses to society and organizations, the ability to collect, store, process, analyse and extract knowledge in a helpful time frame stands out. This dissertation focuses on the processing of highly dimensioned datasets, such as those generated by High-throughput sequencing (HTS) techniques, which are increasingly common in areas of knowledge such as bioinformatics. Among the dimensionality reduction techniques, feature selection has become crucial since it reduces the high dimensionality of large datasets. A possible approach to perform the feature selection that considerably reduces the dimension without increasing the inconsistency of the data is the use of Logical Analysis of Inconsistent Data (LAID). Several studies in recent years have demonstrated its potential in solving this problem and highlighted its advantages as a systematic methodology, robust, easy to interpret, and capable of dealing with inconsistent data. The same studies revealed processing times longer than desired for full utilization and pointed out the solution for executing the algorithms using parallel processing and mobilization of a high-performance computing (HPC) installation. This work represents another contribution to this effort by addressing dataset storage methods suitable for parallel processing, algorithm parallelization solutions, high-performance environment configuration. Finally, it tests in the HPC environment of the Infraestrutura Nacional de Computação Distribuída (INCD). What allowed us to describe a fit-for-purpose dataset storage solution as well as parallel processing in an HPC environment can reduce processing times for the end-user, achieving a satisfactory 82% reduction relative to best sequential time.}
Keywords: {pt=Data Mining, Alta dimensionalidade, Seleção de atributos, LAID, Computação paralela, en=Data mining, High dimensionality, Feature selection, LAID, Parallel computing}

Discussão: novembro 26, 2021, 16:0