Dissertação

{en_GB=Unravelling breast and prostate common gene singnatures by Bayesian network learning} {} EVALUATED

{pt=O cancro da mama invasivo e o adenocarcinoma da próstata são dois dos tipos de cancro mais comuns em mulheres e homens, respectivamente. Como tumores dependentes de hormonas para o seu crescimento, os dois cancros partilham consideráveis similaridades biológicas subjacentes, que merecem ser exploradas com o objectivo de desenvolver terapias comuns. Esta tese propõe uma metodologia para revelar assinaturas de genes comuns a cancro da mama e da próstata, baseada na aprendizagem de redes de Bayes. Foram medidos aproximadamente 20000 genes de RNA-Seq BRCA e PRAD, disponíveis no The Cancer Genome Atlas (TCGA). Além de aprender as redes de Bayes a partir de dados não regularizados, uma etapa prévia de redução de dimensionalidade baseada em regressão logística esparsa com penalização elastic net é utilizada para seleccionar um conjunto de genes relevantes, para maior interpretabilidade dos resultados. A solução proposta foi validada usando dados reais e também dois conjuntos de dados aleatórios, gerados simulando a partir de uma distribuição normal multivariada, com as médias e covariâncias das variáveis nos dados reais. As redes de Bayes obtidas foram validadas por comparação com informação disponível na STRING, uma base de dados que contém interacções de genes conhecidas. Foi obtida uma sobreposição considerável entre as redes de genes identificados e as informações de rede da STRING, sendo tal uma forte indicação de que as redes aprendidas podem ser biologicamente significativas. Além disso, foram encontrados genes associados a vários hallmarks do cancro, o que merece aprofundamento e validação biológica junto de especialistas da área., en=Breast invasive carcinoma (BRCA) and prostate adenocarcinoma (PRAD) are two of the most common types of cancer in women and men, respectively. As hormone-dependent tumours, BRCA and PRAD share considerable underlying biological similarities worth being exploited. The disclosure of gene networks regulating both types of cancers would potentially allow the development of common therapies. This thesis proposes a methodology to unravel breast and prostate cancers common gene signatures based on Bayesian network learning. BRCA and PRAD RNA-Seq data from The Cancer Genome Atlas (TCGA) measured over approximately 20000 genes were used. In addition to learning the Bayesian networks from full data, a prior dimensionality reduction step based on sparse logistic regression with elastic net penalisation was employed to select a set of relevant genes and provide more interpretable results. The proposed pipeline was validated using real data and two random datasets, generated simulating from a multivariate normal distribution, using the means and covariances of the variables in the real datasets. The Bayesian networks obtained were validated against information from STRING, a database containing known gene interactions. A considerable overlap between the gene networks identified and STRING network information was obtained, a strong indication that the networks learnt may be biologically meaningful. Furthermore, genes associated with several hallmarks of cancer were found, which deserves further investigation and biological validation from experts on the subject. }
{pt=cancro da mama invasivo, adenocarcinoma da próstata, redes de Bayes, regressão logística esparsa, expressão genética, en=breast invasive carcinoma, prostate adenocarcinoma, Bayesian networks, sparse logistic regression, gene expression}

Julho 20, 2018, 11:0

Orientação

ORIENTADOR

Susana de Almeida Mendes Vinga Martins

Departamento de Engenharia Informática (DEI)

Professor Associado

ORIENTADOR

Alexandra Sofia Martins de Carvalho

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Professor Auxiliar