Dissertação

Feature Selection using LAID and its Implementation on High-Performance Computing Systems -A parallel computing approach using Python and HDF5 EVALUATED

Dos muitos desafios atuais que a crescente disponibilidade de dados lança à sociedade e organizações destaca-se a capacidade de coletar, armazenar, processar, analisar e extrair conhecimento em tempo útil. Nesta dissertação o foco é o processamento de datasets altamente dimensionados, como os gerados pelas técnicas de High-throughput sequencing (HTS), cada vez mais comuns em áreas como a bioinformática. De entre as técnicas de redução de dimensionalidade a seleção de atributos tornou-se crucial ao permitir reduzir a alta dimensionalidade de grandes quantidades de dados, que sem esse tratamento permaneceriam com utilidade limitada. Uma possível abordagem para a realizar e que permite reduzir consideravelmente a dimensão sem aumentar a inconsistência dos dados é a utilização de Análise Lógica de Dados Inconsistentes (LAID). Vários estudos recentes, demostraram as suas potencialidades na resolução deste problema e evidenciaram as suas vantagens como uma metodologia sistemática, robusta, de fácil interpretação e capaz de lidar com dados inconsistentes. Os mesmos estudos revelaram tempos de processamento acima do desejado e apontaram a solução para a execução dos algoritmos usando processamento paralelo e o recurso a computação de alto desempenho (HPC). Este trabalho representa mais um contributo nesse esforço ao abordar formas de armazenamento dos datasets adequadas ao processamento paralelo, soluções de paralelização dos algoritmos, configuração do ambiente HPC e finalmente os testes na Infraestrutura Nacional de Computação Distribuída (INCD). O que permite descrever como reduzir os tempos de processamento para o utilizador final, alcançando uma redução satisfatória de 82% relativa ao melhor tempo sequencial.
Data Mining, Alta dimensionalidade, Seleção de atributos, LAID, Computação paralela

novembro 26, 2021, 16:0

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Luis Manuel Pereira Sales Cavique Santos

Universidade Aberta

Professor Auxiliar