Dissertação

Deep Learning for Protein Thermostability Engineering EVALUATED

Os mais recentes avanços em processamento de linguagem mostram que redes neuronais artificiais são capazes de aprender conceitos como contexto e semântica apenas com treino não-supervisionado. Usando estes modelos de linguagem, novas formas de representar proteínas como vectores contínuos que capturam propriedades biológicas diretamente de sequências sem anotação estão a ser desenvolvidas. Neste trabalho, os vectores gerados pelo modelo SeqVec, inspirado no modelo de linguagem ELMo e treinado no conjunto de dados UniRef50, foram estudados pela sua capacidade de capturar a estabilidade térmica de proteínas. Três conjuntos de dados de estabilidade térmica de proteínas foram preparados e usados para treinar e avaliar diversos modelos de aprendizagem automática pela sua capacidade de previsão de valores de estabilidade térmica utilizando apenas os vectores produzidos pelo modelo SeqVec. Ainda longe do ideal, experiências com sequências de proteínas naturais mostram que estes modelos são capazes de produzir previsões informativas, e que conseguem isolar proteínas com elevada estabilidade térmica. Adicionalmente, modelos treinados para prever o efeito de mutações na estabilidade térmica de proteínas foram capazes de atingir valores de correlação de Matthews de até 0.354 em dados independentes, um valor capaz de competir com a literatura atual. A utilização destes métodos para a previsão da estabilidade térmica de proteínas abre uma nova abordagem para a engenharia de proteinas que não requer a preparação de características fisico-quimicas nem de características estruturais para descrever as proteínas. Com este trabalho, foi demonstrado que esta abordagem tem bastante potencial, mas que ainda é limitada pela falta de dados disponível.
Aprendizagem automática, Aprendizagem profunda, Modelos de linguagem, Engenharia de proteínas, Previsão de estabilidade térmica

janeiro 13, 2021, 14:0

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Ana Luísa Nobre Fred

Departamento de Bioengenharia (DBE)

Professor Associado

ORIENTADOR

Marcel J.T. Reinders

TU Delft, The Delft Bioinformatics Lab

Doutor