Dissertação

{en_GB=A framework for large scale phylogenetic analysis} {} EVALUATED

{pt=Na atualidade, trocas de pessoas e mercadorias entre diferentes países têm aumentado. Como consequência as epidemias tornaram-se uma preocupação maior, resultando na recolha de grandes quantidades de dados todos os dias. As análises que normalmente eram executadas em computadores pessoais já não são viáveis. Agora é comum executar essas análises em ambientes de computação de alto desempenho e/ou sistemas dedicados. Por outro lado, nessas análises lidamos frequentemente com gráficos, árvores e com execuções de algoritmos para encontrar padrões nestas estruturas. Embora existam base de dados orientadas a grafos e sistemas de processamento que podem ajudar neste tema, não conhecemos nenhuma solução baseada nestas tecnologias para lidar com os desafios da análise filogenética em larga escala. O objetivo deste projeto é o desenvolvimento de uma plataforma que explore estas tecnologias, nomeadamente o Neo4j. Nós abordamos este desafio com a proposta e o desenvolvimento de uma plataforma que permita a representação de grafos e árvores filogenéticas de maior dimensão, bem como dados auxiliares, que suporta consultar esses dados e que permita a execução de algoritmos, para inferir/detectar padrões e pré-computar visualizações, como plugins do Neo4j. Esta plataforma é inovadora e traz vantagens para a análise filogenética, como por exemplo, o armazenamento dos grafos, que evita ter que computá-los novamente, e o uso de redes multi camadas, que torna a comparação entre eles mais eficiente. A análise dos resultados experimentais mostra que a plataforma pode ser muito eficiente nas operações mais utilizadas e que os algoritmos suportados obedecem à sua complexidade de tempo., en=With growing exchanges of people and merchandise between countries, epidemics have become an issue of increasing importance and huge amounts of data are being collected every day. Hence, analyses that were usually run in personal computers are no longer feasible. It is now common to run such tasks in High-performance computing environments and/or dedicated systems. On the other hand, we are often dealing in these analyses with graphs and trees, and running algorithms to find patterns in such structures. Hence, although graph oriented databases and processing systems can be of much help in this setting, as far as we know there is no solution relying on these technologies to address large scale phylogenetic analysis challenges. This work aims to develop a modular framework that exploits such technologies, namely Neo4j. We address this challenge by proposing and developing a framework which allows representing large phylogenetic networks and trees, as well as ancillary data, that supports queries on such data, and allows the deployment of algorithms for inferring/detecting patterns and pre-computing visualizations, as a Neo4j plugin. This framework is innovative and brings several advantages to the phylogenetic analysis process, like the management of the phylogenetic trees, which will avoid having to compute them again, and the use of multilayer networks, that will make the comparison between them more efficient and scalable. The experimental evaluation results showcase that it can be very efficient in the mostly used operations and that the supported algorithms comply with their time complexity.}
{pt=Filogenia, grafos, armazenamento, computação, en=Phylogeny, graphs, storage, processing}

janeiro 22, 2021, 16:30

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Cátia Raquel Jesus Vaz

ISEL

Professor Adjunto

ORIENTADOR

Alexandre Paulo Lourenço Francisco

Departamento de Engenharia Informática (DEI)

Professor Associado