Dissertação

Fast mapping and querying over large scale typing data EVALUATED

A introdução do High-Throughput DNA Sequencing(HTS) criou um novo paradigma na tipagem microbiana e nos estudos de estrutura genonima populacional. O HTS têm a capacidade de sequenciar os genomas em milhares de strains, onde surgiu a necessidade de criar formas eficazes de representar as relações destas. Uma dessas formas é a análise do Polimorfismo de nucleotídeo unico (SNP), onde resulta perfis que contem milhares de loci que podem ser usados para a vigilância de doenças infecciosas, investigação de surtos e na historia natural de uma infecção. Para definir esses perfis é necessário mapear os dados obtidos pelo o HTS, identificar os genes mais relevantes e por fim, consultar as bases de dados já existentes para verificar se os strains jé existem e/ou obter os strains similares ao que esta a ser analisado. Dado o grande volume de dados obtidos pelo o HTS, o tamanho das bases de dados e a urgência destas análises, nomeadamente, na presença de surtos, torna-se um grande desafio computacional o mapeamento e a pesquisa em tempo util. Neste trabalho é proposto uma nova abordagem para solucionar este problema sem utilizar metodos clássicos de approximate string matching. Esta abordagem irá utilizar código lineares, nomeadamente Reed Muller Code (RM), para agrupar SNPs nas regiões das palavras de código.
Polimorfismo de Nucleotídeo Único, Códigos Lineares, Distância de Hamming, Código Reed-Muller

Novembro 5, 2018, 13:0

Documentos da dissertação ainda não disponíveis publicamente

Orientação

ORIENTADOR

Luís Manuel Silveira Russo

Departamento de Engenharia Informática (DEI)

Professor Auxiliar

ORIENTADOR

Alexandre Paulo Lourenço Francisco

Departamento de Engenharia Informática (DEI)

Professor Auxiliar