Dissertação

{en_GB=Identification of common gene signatures in microarray and RNA-sequencing data using network-based regularization} {} APPROVED

{pt=Um tumor é caracterizado por um crescimento celular anormal devido à disrupção da expressão de alguns genes. Microarranjos e RNA-seq são tecnologias usadas para medir os níveis de expressão génica, permitindo a obtenção de dados que possibilitam inúmeras aplicações como mineração de dados e algoritmos de Aprendizagem Automática (AA) que melhoram o diagnóstico, o prognóstico e a terapia. Apesar destas tecnologias terem o mesmo propósito, existem algumas diferenças fundamentais entre elas. Assim sendo, pretende-se responder a: I) será que as assinaturas genéticas dependem da plataforma usada na aquisição de dados, e se sim como; II) será que beneficiamos da integração de dados. Propõe-se o uso de um método de regularização baseado em redes de correlação,Twiner, como uma estratégia que promove a seleção de assinaturas genéticas em cancro da mama ER+ com um padrão de correlação semelhante entre microarranjos e RNA-seq. O Twiner alcançou resultados na classificação das amostras em tumorais ou normais de 99.07% e 98.64% nos conjuntos de treino e teste, respetivamente, o que é comparável aos da regularização com EN. Para além disso, os biomarcadores identificados eram relevantes para a doença, uma vez que a maioria deles já tinha sido associado à mesma em estudos anteriores. Nesse sentido, podemos beneficiar da quantidade de dados de microarranjos e RNA-seq existente porque a conclusão biológica deduzida é a mesma independentemente da tecnologia usada. , en=A tumor is the fast growth of abnormal cells due to the disruptive expression of certain genes. Microarray and RNA-sequencing (RNA-seq) are technologies used to measure gene expression levels. Their development gave access to huge amounts of data, allowing multiple applications from data mining to Machine Learning (ML) algorithms that improve diagnosis, prognosis, and therapy. The use of these two technologies alongside ML helps to identify and to characterize key signaling pathways, and to discover new disease’s biomarkers. However, even though these technologies are similar in purpose, there are some fundamental differences between them. Therefore, in this study we aim to answer to I) do gene signatures depend on the platform used for data acquisition and if so how; II) do we leverage from data integration. Hence, we propose the use of a network-based regularization method, Twiner, as a strategy to enhance the selection of gene signatures in breast ER+ cancer that have similar correlation pattern in both microarray and RNA-seq platforms. Twiner achieved PR AUCs in the sample classification in tumor or normal of 99.07% and 98.64% in the training and test set, respectively, which are comparable to existing regularization methods like EN. Moreover, the biomarkers identified were relevant to disease's characterization since most of them were already reported as being breast cancer signatures by other studies. Therefore, by leveraging from the existing amount of data for microarray and RNA-seq, a single biological conclusion will be reached, independent of each individual technology. }
{pt=Microarranjos, RNA-sequencing, Aprendizagem Automática, Biomarcadores, Regularização com redes de correlação, en=Microarrays, RNA-sequencing, Machine Learning, Biomarkers, Network-based regularization}

Orientação

ORIENTADOR

Marta Isabel Belchior Lopes

Instituto de Telecomunicações (IT)

Doutora

ORIENTADOR

Susana de Almeida Mendes Vinga Martins

Departamento de Bioengenharia (DBE)

Professor Associado