Dissertação

{en_GB=Network-based Regularization for Survival Analysis} {} EVALUATED

{pt=Um dos maiores desafios do século XXI é a prevenção, diagnóstico e tratamento de doenças oncológicas. Para estudar os principais fatores de risco é comum recorrer-se a dados de sobrevivência dos pacientes. Estes conjuntos de dados estão frequentemente associados à expressão genética do individuo, sofrendo a maldição da dimensionalidade. Métodos como o LASSO e Elastic Net têm-se mostrado eficientes para lidar com problemas com as mesmas características. No entanto, resultam regularmente em modelos complexos que podem ser biologicamente pouco relevantes. Como solução, neste trabalho, é apresentada uma metodologia que melhor restringe o espaço de solução, favorecendo os genes mais relevantes tendo em conta datasets públicos. É considerada uma rede de relações entre proteínas para explorar um novo método de regularização, com base em medidas de centralidade, nomeadamente o grau e a intermediação. Com a restrição apresentada, são obtidas soluções que, no geral, consideram genes que são biologicamente mais interessantes, tendo uma forte presença em diversas investigações oncológicas. Os resultados obtidos indicam que a metodologia proposta resulta de facto em modelos mais simples e com melhores resultados. Além disso, permite obter genes que não estão ainda associados ao tipo de cancro em estudo, mas manifestam-se como potenciais candidatos a ter em conta. A aplicação desta metodologia em diversos datasets com as mesmas características em conjunto com uma maior validação científica, poderá levar à determinação de novos genes significativos no estudo da expressão de diversos tipos de cancro. Além disso, resulta na construção de modelos simples e mais robustos., en=One of the principal challenges of the 21st century is the prevention, diagnosis and treatment of oncological diseases. To study the dominant risk factors, it is common to rely on patient survival data. These data sets are often associated with the genetic expression of the individual, suffering the curse of dimensionality. Methods such as LASSO and Elastic Net have proven to be efficient in dealing with problems with the same characteristics. However, these sometimes result in relatively complex models that might not be biologically significant. As a solution, this thesis presents a methodology that best restricts the solution space, favouring the most relevant genes taking into account public datasets, from the The Cancer Genome Atlas (TCGA). It is considered a network of relations between proteins to explore a new method of regularisation, based on measures of centrality, namely degree and betweenness. With the restriction presented, solutions are obtained which, in general, consider genes that are biologically more interesting, having a strong presence in several oncological investigations. The results indicate that the proposed methodology results in simpler models with better results. Besides, it allows obtaining genes that are not yet associated with the type of cancer under study but manifest themselves as potential biomarker candidates to take into account. The application of this methodology in several datasets with the same characteristics together with a greater scientific validation could lead to the determination of new significant genes in the study of the expression of several types of cancer.}
{pt=Regressão Cox, Regularização, Redes, Expressão de genes, Proteínas, en=Cox Regression, Regularisation, Networks, Gene Expression, Proteins}

Novembro 23, 2018, 17:0

Orientação

ORIENTADOR

Susana de Almeida Mendes Vinga Martins

Departamento de Bioengenharia (DBE)

Professor Associado

ORIENTADOR

Alexandra Sofia Martins de Carvalho

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Professor Auxiliar