FenixEdu™

Dissertação

Large scale and dynamic phylogenetic inference from epidemic data EVALUATED

Detalhes: Os métodos de tipagem são vastamente utilizados uma vez que fornecem conhecimento importante na vigilância de doenças infecciosas, investigação de surtos e na história natural de uma infecção. O seu uso está-se a tornar bastante comum, em particular com a introdução de High Throughput Sequencing (HTS). Por outro lado, a quantidade de dados que é gerada é enorme e muitos algoritmos têm sido propostos para realizarem a análise filogenética desses dados, abordando problemas de correção e escalabilidade, como é o caso do algoritmo goeBURST. Grande parte dos algoritmos baseados em distâncias que inferem árvores filogenéticas seguem um esquema de junção do par mais próximo. Esta é uma das abordagens utilizadas em clustering hierárquico. Apesar dos algoritmos de inferência filogenética parecerem bastante diferentes, a principal diferença reside no facto de como cada um define a proximidade a um cluster e que critério é que usam. O objetivo principal desta tese é o estudo dos métodos mais utilizados que permitem realizar inferência filogenética, focando no algoritmo goeBURST e os problemas computacionais que advém da sua utilização a grande escala. Além disso, este deve ser executado sempre que novos dados fiquem disponíveis e a partir do zero. Este problema é abordado através da proposta de dois algoritmos dinâmicos que permitem que os dados sejam continuamente integrados e atualizados. Os resultados experimentais mostram que esses algoritmos são eficientes na integração de novos dados e na atualização dos padrões evolutivos inferidos, melhorando o tempo de execução das atualizações em pelo menos uma ordem de grandeza.
Keywords: Inferência filogenética, Árvores filogenéticas, Algoritmos dinâmicos, Dados de tipagem baseados em sequências.

Discussão: novembro 9, 2017, 13:0