Dissertação

{en_GB=PhyloMissForest: a framework to construct phylogenetic trees with missing data} {} EVALUATED

{pt=Procurando melhor compreender a biodiversidade, os biólogos evolucionistas contam com estudos filogenéticos para ilustrar o caminho da evolução. As relações entre organismos, frequentemente representadas por árvores filogenéticas, ajudam a entender a história evolutiva e têm uma ampla gama de aplicações. Os dados perdidos estão entre os problemas mais desafiantes ao construir árvores filogenéticas. Especificamente, a possibilidade de inferir árvores filogenéticas incorretas aumenta proporcionalmente com a quantidade de dados perdidos. Embora existam métodos propostos para lidar com esta questão, os seus resultados permanecem insatisfatórios. Esta Tese propõe uma estrutura, denominada PhyloMissForest, para inferir dados perdidos em matrizes de distâncias filogenéticas. PhyloMissForest é construído sobre uma estrutura de Random Forest que infere as células ausentes dos dados de entrada, com base nas suas partes conhecidas. PhyloMissForest contribui com uma estrutura robusta e configurável incorporando múltiplas estratégias de procura e técnicas de aprendizagem automática, guiadas por conhecimento filogenético, para fornecer uma reconstrução precisa de distâncias filogenéticas perdidas. Avaliámos o PhyloMissForest em três conjuntos de dados reais, dois ADN e um aminoácido. O ajuste de hiperparâmetros do algoritmo é realizado por uma abordagem de design experimental, metodologia preferível em relação aos habituais testes exaustivos. Variando as percentagens de dados perdidos entre 5% e 60%, nos conjuntos de ADN, superamos as técnicas alternativas em 100% dos testes. No conjunto de dados de aminoácido, o PhyloMissForest continua competitivo com 50% de vitórias. PhyloMissForest provou que a fusão entre aprendizagem automática e conhecimento filogenético, fornece uma ferramenta valiosa para a investigação filogenética na presença de dados perdidos., en=In the pursuit of better understanding biodiversity, evolutionary biologists rely on phylogenetic studies to illustrate the course of evolution. The relationships among organisms, often depicted by phylogenetic trees, not only help to understand evolutionary history but also have a wide range of applications. Missing data is among the most challenging problems when building phylogenetic trees. Specifically, the possibility of inferring wrong phylogenetic trees increases proportionally to the amount of missing values in the input data. Although there are methods proposed to deal with this issue, their results remain unsatisfactory. This Thesis proposes a framework, called PhyloMissForest, to impute missing entries in phylogenetic distance matrices. PhyloMissForest is built upon a random forest structure that infers the missing cells of the input data, based on the known parts of it. PhyloMissForest contributes with a robust and configurable framework that incorporates multiple search strategies and machine learning techniques, guided by phylogenetic knowledge, to provide a more accurate inference of lost phylogenetic distances. We evaluate PhyloMissForest with three real-world datasets, two DNA and one amino acid. The algorithm hyperparameter tunning is performed by design-of-experiments, which is a concise method, preferable to the usual exhaustive tests. Varying the percentages of missing data from 5% to 60%, in DNA datasets, we outperform the state-of-the-art techniques in 100% of the tests. As for amino acids, PhyloMissForest remains competitive with 50% of wins. PhyloMissForest proved that the merge between machine learning techniques and phylogenetic knowledge provides a valuable tool for phylogenetic research in the presence of missing data.}
{pt=Árvore Filogenética, Dados em Falta, Imputação, Apredizagem Automática, Árvore de Decisão, en=Phylogenetic Tree, Missing Data, Imputation, Machine Learning, Decision Tree}

Janeiro 20, 2021, 14:30

Orientação

ORIENTADOR

Sergio Santander-Jiménez

Universidade da Extremadura

Professor Auxiliar

ORIENTADOR

Aleksandar Ilic

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Professor Auxiliar