Dissertação

{en_GB=Sequence-based determinants of mRNA halflife in human cells} {} EVALUATED

{pt=Nos seres humanos, o DNA codifica um programa escrito numa língua de 4 caracteres que define o comportamento e a função de cada célula no organismo. Porções deste código, denominadas genes, contêm instrucões para a producão de proteínas, cuja regulação da quantidade é de suma importância para o funcionamento correto da célula. O código utilizado para a produção de proteínas é copiado a partir do local onde está armazenado e subsequentemente transportado pela molécula mRNA (RNA mensageiro) para o local onde é usado como modelo para as fabricar. O código transportado pelo mRNA determina parcialmente o intervalo de tempo em que este está ativo, medido pelo tempo de semi-vida, que influencia a quantidade de proteínas produzidas a partir dele. Nesta tese, o tempo de semi-vida do mRNA e as suas variações entre células humanas são modelados através da tarefa preditiva que consiste em determiná-los a partir da sua sequência. A análise dos modelos resultantes permitiu descobrir uma relação previamente desconhecida entre a capacidade de produção energética de uma célula e o tempo de semi-vida do mRNA através dos seus codões e possivelmente da sua tradução. O desenvolvimento de redes neuronais convolucionais e subsequente interpretação pelas ferramentas DeepLIFT e TF-MoDISco, permitiu revelar novos elementos da sequência que potencialmente regulam o tempo de semi-vida do mRNA. Em suma, os modelos desenvolvidos podem ser utilizados noutros domínios como modelação da expressão de genes. Além disso, os processos biológicos descobertos contribuem para o conhecimento da biologia celular e podem ser explorados para fins clínicos. , en=In humans, the DNA molecule encodes a program written in a 4-character language using a 3-billion-long-text, which defines the behavior and function of each cell in the organism. Portions of this code - genes - contain the instructions to build proteins. Regulating the amount of proteins in a cell at a given time is of utmost importance for its correct functioning. The code for the production of a protein is copied from its storing location and delivered to its production site by a molecule termed messenger RNA (mRNA). The variable-length 4-character-language sequence contained in the mRNA molecule partly determines the time window it stays functional and can be measured by its half-life. The longer the mRNA is available, the more proteins will be produced from it. Here, we model mRNA half-life and its variations across different human cells through the task of predicting mRNA half-life from its sequence, assessing the quantitative influence of multiple sequence elements. Subsequent analysis of the resulting models allowed us to uncover a previously unknown connection between a cell’s energy production and mRNA half-life through its codon content and possibly translation process. Through the development of deep convolutional neural network models and their interpretation using DeepLIFT and TF-MoDISco, we revealed new possible sequence portions or motifs which potentially regulate mRNA half-life. Overall, the developed models can be used in other domains such as gene expression modeling. Furthermore, the uncovered biological pathways add to our understanding of cell biology and can further be exploited for clinical purposes.}
{pt=Tempo de semivida do mRNA, CNN, interpretação de modelos preditivos, sequências regulatórias, variações do tempo de semivida do mRNA, tecidos humanos, en=mRNA half-life modeling, Deep Convolutional Neural Networks, model interpretation, regulatory sequences, tissue-specific mRNA half-life variations}

Janeiro 12, 2021, 14:0

Orientação

ORIENTADOR

Prof. Dr. Julien Gagneur

Technical University of Munich

Professor Catedratico

ORIENTADOR

Maria Margarida Campos da Silveira

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Professor Auxiliar