Dissertação

{en_GB=Probabilistic Modelling of Single-cell Transcriptomics} {} EVALUATED

{pt=O perfil genético de uma célula dita a sua função em processos moleculares e pode ser utilizado para inferir sobre a sua saúde. Isto representa um passo na caracterização profunda de doenças como o cancro e pode levar a avanços no seu tratamento. A tecnologia utilizada para medir a expressão genética de células isoladas, scRNA-seq, emergiu na última década como o principal catalizador destes avanços. No entanto, os métodos existentes para redução de dimensionalidade, agrupamento de tipos de células e análise de diferenças de expressão entre condições são limitados pelas especificidades dos dados obtidos através de scRNA-seq, em que factores técnicos podem confundir análises da verdadeira variabilidade biológica e contribuir para resultados espúrios. Para superar este problema, uma possível abordagem é a construção de modelos probabilísticos do processo generativo dos dados, em que variáveis latentes codificam os diferentes factores de variação. Nesta dissertação estudam-se os principais modelos probabilísticos para scRNA-seq e propõem-se dois modelos que podem ser utilizados para análise robusta dos dados. Para garantir expressividade e escalabilidade para grandes conjuntos de dados, derivam-se algoritmos de inferência variacional para aproximar a distribuição sobre as variáveis escondidas de ambos os modelos. É demonstrado que os modelos propostos são competitivos com os modelos actuais para a redução robusta de dimensionalidade em dados recentes, e melhoram o melhor modelo Bayesiano para conjuntos de dados pequenos. Os resultados mostram que construir modelos probabilísticos com variáveis latentes e utilizar inferência variacional é uma abordagem promissora para a análise de dados de scRNA-seq em larga escala., en=The gene expression profile of a cell dictates its function in molecular processes, and can be used to probe its health status. This represents a step forward in the deep characterization of diseases such as cancer and may lead to breakthroughs in their treatment. The technology used to measure the gene expression of isolated cells, single-cell RNA-seq (scRNA-seq), has emerged in the last decade as a key enabler of this progress. However, the use of existing methods for dimensionality reduction, clustering and differential expression is limited by the specificities of the data obtained from scRNA-seq experiments, where technical factors may confound analyses of the true biological signal and contribute to spurious results. To overcome this issue, a possible approach is designing probabilistic generative models of the data with hidden variables encoding different underlying processes. In this thesis we study the state-of-the-art probabilistic models of scRNA-seq and propose two novel methods which can be used for robust downstream analyses, mainly clustering of cell types. To ensure expressiveness and scalability to large data sets, we develop variational inference algorithms to approximate the posterior distributions of the hidden variables of both models. We show that the proposed methods are competitive with the state-of-the-art models for robust dimensionality reduction in modern data sets, and improve upon the current best Bayesian model for small numbers of cells. The results show that building probabilistic models of latent variables which encode domain knowledge and use variational inference is a promising approach to analysing scRNA-seq data at scale.}
{pt=scRNA-seq, modelos probabilísticos, inferência estatística, redução de dimensionalidade, en=scRNA-seq, probabilistic models, statistical inference, dimensionality reduction}

Outubro 31, 2018, 11:0

Orientação

ORIENTADOR

Susana de Almeida Mendes Vinga Martins

Departamento de Bioengenharia (DBE)

Professor Associado

ORIENTADOR

Alexandra Sofia Martins de Carvalho

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Professor Auxiliar