Dissertação

{en_GB=Single and Multi-Objective Epistasis Scoring: A Matter of Frequency} {} EVALUATED

{pt=Os estudos de deteção de epistasia dedicam-se a encontrar interações entre Polimorfismos de Nucleotídeo Único (SNPs) ligados à suscetibilidade e desenvolvimento de doenças complexas. Uma vez que os métodos search and score existentes para detetar combinações de SNPs significativas se concentram no algoritmo de pesquisa, a questão de como melhor avaliar a contribuição epistática dessas interações ainda carece de uma resposta satisfatória. Esta dissertação propõe uma nova metodologia para avaliar o desempenho de seis funções objetivo amplamente utilizadas na deteção de epistasia com base na distribuição de genótipos no conjunto de dados. Esta análise revela uma correlação entre melhor desempenho dos objetivos e valores extremos em tabelas de frequência. Neste sentido, foram isolados dois parâmetros, um baseado em genótipos com diferenças extremas entre a contagem de casos e controlos e uma forma simplificada de herdabilidade que considera o número total de observações e casos para cada genótipo. É definido um limite para estes parâmetros acima do qual, para os conjuntos de dados sintéticos analisados, a função objetivo identifica corretamente combinações de SNPs associadas. Abaixo desse limite, a combinação de duas e três funções numa abordagem multiobjectivo aumenta significativamente o desempenho. Esta abordagem baseada em tabelas de frequência é inovadora na literatura, dada a falta de um método que permita avaliar e comparar o desempenho de funções objetivo. Os parâmetros definidos podem ser calculados a partir de dados reais, contribuindo como um primeiro passo na validação de resultados de métodos de deteção de epistasia existentes., en=Epistasis detection studies focus on finding interactions between Single Nucleotide Polymorphisms (SNPs) that may be linked with susceptibility to and development of complex disease states. Since existing search and score methods for detecting significant SNP combinations focus heavily on the search algorithm, the question of how to best evaluate the epistatic contribution of these interactions still lacks a satisfactory answer. This dissertation proposes a novel methodology for evaluating the performance of six widely used objective functions for epistasis detection based on genotype distribution in the dataset. This analysis reveals a correlation between high scoring power and extreme frequency table values, defined by two parameters. The first is based on genotypes with extreme differences between counts of cases and controls and the second is a simplified heritability formulation taking into account the total number of observations and cases for each genotype. A threshold is defined for these parameters above which, for the simulated datasets analysed, an objective function can correctly and single-handedly identify associated SNP combinations. Below this threshold, the combination of two and three complementary objective functions in a multi-objective approach demonstrates an increase in scoring power. This frequency table based approach is innovative in the sense that there is not currently a defined methodology for evaluating and comparing the performance of objective functions. The defined parameters can be applied to real datasets, representing a first step in validating the results of existing epistasis detection methods and promoting the choice of the least complex scoring method possible for specific datasets.}
{pt=Polimorfismo de Nucleotídeo Único, epistasia, tabela de frequências, função objetivo, optimização multi-objectivo, estudos caso-controlo, en=Single Nucleotide Polymorphism, epistasis, frequency table, objective function, multi-objective optimization, case-control studies}

Setembro 30, 2020, 10:30

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Sergio Santander-Jiménez

Universidade da Extremadura

Professor Auxiliar

ORIENTADOR

Aleksandar Ilic

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Professor Auxiliar