Dissertação

{en_GB=Machine Learning and Computational Intelligence for High-Order Epistasis Detection} {} EVALUATED

{pt=Estudos de Associação ao Nível do Genoma (EANG) tencionam descobrir como indicadores genéticos como Polimorfismos de Nucleótido Único (PNU) interagem mutualmente entre si, levando à manifestação de doenças ou traços. Uma análise exaustiva completa é proibitiva devido ao número exponencialmente crescente, com o número de PNUs assumidos estarem envolvidos e PNUs presentes no genoma humano, de interações a testar. Procedimentos comuns usam técnicas de aprendizagem automáticas para classificar PNUs de acordo com o seu poder de predição estimado ou criar agrupamentos de PNUs entre os quais se assume que gerem interações bem pontuadas. O método proposto usa um algoritmo genético para pesquisar o espaço dos parâmetros de uma máquina de potenciamento de gradiente com o intuito de encontrar uma configuração ótima. Esta configuração produzirá um modelo no qual as variáveis mais proeminentes coincidirão com os PNUs envolvidos em interações de alto poder de predição sobre se um paciente manifestará um certo traço ou não, incitando uma busca exaustiva nesse subespaço com o intuito de encontrar as interações melhor pontuadas. Soluções ótimas para interações de até 5 PNUs foram alcançadas ou bem aproximadas com este método em datasets sintetizados onde foram escondidas interações com controlo sobre o seu poder de predição do traço em estudo. O algoritmo é uma ferramenta de inferência para EANG que funciona em ordens de interação não usualmente estudadas, sendo capaz de encontrar interações de elevada ordem promissoras para estudo biológico subsequente sem um aumento exponencial no tempo., en=Genome-Wide Association Studies (GWAS) aim to discover how genetic markers like Single Nucleotide Polymorphisms (SNP) mutually interact with each other, enabling the manifestation of diseases or traits. Full exhaustive analysis is prohibitive due to the exponentially increasing, with the numbers of markers assumed to be involved and SNPs present in the human genome, of interactions to test. Common approaches use machine learning techniques to rank SNPs according to their estimated predictive power or create clusters for SNPs assumed to produce highly scoring interactions between them. The proposed approach uses a genetic algorithm to search the parameter space of a gradient boosting machine in order to find an optimal configuration. This configuration will produce a model in which the most prominent features will coincide with the SNPs involved in interactions of highly predictive power for determining wether a patient will manifest a certain trait or not, prompting an exhaustive search on that subspace to find best scoring interactions. Optimal solutions for interactions of up to 5 SNPs where found or closely approached with this approach on toy datasets where interactions of superior order where hidden with controllable prediction power for the studied trait. The algorithm is an inference tool for GWAS that works outside of common interaction orders studied, being able to find promising higher-order interactions for further biological study without an exponential increase in time.}
{pt=Estudos de Associação ao Nível do Genoma, Epístase de Ordens Superiores, Complexidade Temporal, Algoritmo Genético, Procura Exaustiva, Ordem de Interação, en=Genetic-Wise Associaton Study, Higher-Order Epistasis, Time Complexity, Genetic Algorithm, Exhaustive Search, Interaction Order}

novembro 22, 2019, 11:0

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Leonel Augusto Pires Seabra de Sousa

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Professor Catedrático

ORIENTADOR

Aleksandar Ilic

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Professor Auxiliar