Dissertação
Large scale and dynamic phylogenetic inference from epidemic data EVALUATED
Os métodos de tipagem são vastamente utilizados uma vez que fornecem conhecimento importante na vigilância de doenças infecciosas, investigação de surtos e na história natural de uma infecção. O seu uso está-se a tornar bastante comum, em particular com a introdução de High Throughput Sequencing (HTS). Por outro lado, a quantidade de dados que é gerada é enorme e muitos algoritmos têm sido propostos para realizarem a análise filogenética desses dados, abordando problemas de correção e escalabilidade, como é o caso do algoritmo goeBURST. Grande parte dos algoritmos baseados em distâncias que inferem árvores filogenéticas seguem um esquema de junção do par mais próximo. Esta é uma das abordagens utilizadas em clustering hierárquico. Apesar dos algoritmos de inferência filogenética parecerem bastante diferentes, a principal diferença reside no facto de como cada um define a proximidade a um cluster e que critério é que usam. O objetivo principal desta tese é o estudo dos métodos mais utilizados que permitem realizar inferência filogenética, focando no algoritmo goeBURST e os problemas computacionais que advém da sua utilização a grande escala. Além disso, este deve ser executado sempre que novos dados fiquem disponíveis e a partir do zero. Este problema é abordado através da proposta de dois algoritmos dinâmicos que permitem que os dados sejam continuamente integrados e atualizados. Os resultados experimentais mostram que esses algoritmos são eficientes na integração de novos dados e na atualização dos padrões evolutivos inferidos, melhorando o tempo de execução das atualizações em pelo menos uma ordem de grandeza.
novembro 9, 2017, 13:0
Publicação
Obra sujeita a Direitos de Autor
Orientação
ORIENTADOR
Alexandre Paulo Lourenço Francisco
Departamento de Engenharia Informática (DEI)
Professor Auxiliar