Dissertação

{en_GB=Latent variable modelling and variational inference for single-cell RNA-seq differential expression analysis } {} EVALUATED

{pt=No ramo da biologia molecular, a análise do perfil genético é um meio para desvendar características celulares desconhecidas. Uma das principais tarefas na análise de expressão genética é a exploração de dados transcriptómicos, o que permite a identificação de genes com expressão diferenciada em diferentes tipos de tecidos. Caracterização de doenças, desenvolvimento de tratamentos e identificação de novas populações celulares são algumas das aplicações que assentam na análise de genes diferencialmente expressos (GDE). Neste contexto, três tecnologias emergiram: microarrays de DNA, sequenciamento de RNA e sequenciamento de RNA em células individuais (scRNA-seq). Apesar de scRNA-seq proporcionar dados mais precisos, estes são afetados por ruído. Neste trabalho, são introduzidas duas novas abordagens para analisar GDE usando dados scRNA-seq: extended Bayesian zero-inflated negative binomial factorization (ext-ZINBayes) e single-cell differential analysis (SIENA). Ambos assentam em modelos de variáveis latentes para mitigar o impacto do ruído nos dados e recorrem a inferência variacional para analisar componentes do modelo. As duas abordagens são comparadas com métodos existentes, usando dois datasets reais. Um contém dados sobre dois tipos de células de rato e o outro sobre quatro tipos de células do sangue periférico humano. Os resultados mostram que os dois procedimentos conseguem ser competitivos com métodos existentes para a identificação de biomarcadores relevantes. Em termos de escalabilidade e exatidão, o SIENA destaca-se do ext-ZINBayes e de outros métodos. Dado que os dados scRNA-seq estão a aumentar de forma extraordinária, o SIENA poderá revelar-se uma ferramenta essencial para a descoberta de diferenças funcionais entre duas condições distintas., en=In the field of molecular biology, genomic signature analysis is a powerful mean to unravel obscured cellular aspects. One of the main tasks in gene expression analysis is the exploration of transcriptomic data, which enables the recognition of genes that are differentially expressed across distinct tissues. Disease profiling, treatment development, and identification of new cell populations are some of the most relevant applications relying on the analysis of differentially expressed genes (DEG). In this context, three leading technologies emerged; namely, DNA microarrays, bulk RNA sequencing (RNA-seq), and single-cell RNA sequencing (scRNA-seq), the focus of this work. Although scRNA-seq offers more accurate data, it is still limited by many confounding factors. We introduce two novel approaches to assess DEG over single-cell data: extended Bayesian zero-inflated negative binomial factorization (ext-ZINBayes) and single-cell differential analysis (SIENA). Both techniques rely on latent variable models to account for the misleading factors in the data and resort to variational inference to ascertain model components. We benchmark the proposed methods with known DEG analysis tools using two real public datasets. One contains house mouse cells of two different types, while the other gathers human peripheral blood mononuclear cells divided into four types. The results show that the two procedures can be competitive with existing methods in identifying relevant putative biomarkers. In terms of scalability and correctness, SIENA stands out from ext-ZINBayes and some of the existing methods. As single-cell datasets become increasingly larger, SIENA may emerge as a powerful tool to discover functional differences between two conditions.}
{pt=expressão diferenciada, scRNA-seq, modelos de variáveis latentes, inferência variacional, en=differential expression, scRNA-seq, latent variable models, variational inference}

Novembro 4, 2019, 9:0

Orientação

ORIENTADOR

Susana de Almeida Mendes Vinga Martins

Departamento de Engenharia Informática (DEI)

Professor Associado

ORIENTADOR

Alexandra Sofia Martins de Carvalho

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Professor Auxiliar