Dissertação

PhyloMissForest: a framework to construct phylogenetic trees with missing data EVALUATED

Procurando melhor compreender a biodiversidade, os biólogos evolucionistas contam com estudos filogenéticos para ilustrar o caminho da evolução. As relações entre organismos, frequentemente representadas por árvores filogenéticas, ajudam a entender a história evolutiva e têm uma ampla gama de aplicações. Os dados perdidos estão entre os problemas mais desafiantes ao construir árvores filogenéticas. Especificamente, a possibilidade de inferir árvores filogenéticas incorretas aumenta proporcionalmente com a quantidade de dados perdidos. Embora existam métodos propostos para lidar com esta questão, os seus resultados permanecem insatisfatórios. Esta Tese propõe uma estrutura, denominada PhyloMissForest, para inferir dados perdidos em matrizes de distâncias filogenéticas. PhyloMissForest é construído sobre uma estrutura de Random Forest que infere as células ausentes dos dados de entrada, com base nas suas partes conhecidas. PhyloMissForest contribui com uma estrutura robusta e configurável incorporando múltiplas estratégias de procura e técnicas de aprendizagem automática, guiadas por conhecimento filogenético, para fornecer uma reconstrução precisa de distâncias filogenéticas perdidas. Avaliámos o PhyloMissForest em três conjuntos de dados reais, dois ADN e um aminoácido. O ajuste de hiperparâmetros do algoritmo é realizado por uma abordagem de design experimental, metodologia preferível em relação aos habituais testes exaustivos. Variando as percentagens de dados perdidos entre 5% e 60%, nos conjuntos de ADN, superamos as técnicas alternativas em 100% dos testes. No conjunto de dados de aminoácido, o PhyloMissForest continua competitivo com 50% de vitórias. PhyloMissForest provou que a fusão entre aprendizagem automática e conhecimento filogenético, fornece uma ferramenta valiosa para a investigação filogenética na presença de dados perdidos.
Árvore Filogenética, Dados em Falta, Imputação, Apredizagem Automática, Árvore de Decisão

Janeiro 20, 2021, 14:30

Documentos da dissertação ainda não disponíveis publicamente

Orientação

ORIENTADOR

Sergio Santander-Jiménez

Universidade da Extremadura

Professor Auxiliar

ORIENTADOR

Aleksandar Ilic

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Professor Auxiliar