Dissertação
Ngless - A domain specific language for next generation sequence data analysis EVALUATED
Grande parte das tarefas desempenhadas por bioinformáticos requer a execução e interacção com diversos programas para processar dados. A análise computacional é, em muitos casos, o bottleneck para muitas instalações científicas já que o excesso de tempo na configuração de pipelines e a respectiva interpretação dos resultados reduz, em demasia, a produtividade dos investigadores. Apenas um pequeno número, mas crescente, de laboratórios no mundo tem os conhecimentos necessários em biologia e computação, em simultâneo. Actualmente, a maioria dos laboratórios de biologia molecular lida com enormes quantidades de dados de sequenciação, fazendo com que o desenvolvimento de ferramentas computacionais mais sofisticadas seja um problema urgente a ser resolvido. Neste contexto, a criação de ferramentas que permitam o desenvolvimento, de forma simples, de pipelines de análise, desempenha um papel importante na bioinformática. Porém, devido ao uso de formatos não normalizados a comunicação entre as ferramentas existentes sofre de graves problemas. Outros aspectos importantes em ferramentas computacionais são a sua usabilidade, escalabilidade e robustez. No entanto, existem outros problemas inerentes que também exigem a nossa atenção, como a reprodutibilidade de dados. Para combater todos estes problemas, propomos uma linguagem de domínio específico (DSL), chamada NGLess, que pode ser usada para especificar uma série de operações para a análise de dados de sequências de nova geração (NGS). Ao contrário de ferramentas Make-like, NGLess é capaz de detectar erros semânticos, tornar certos tipos de erros impossíveis, e, geralmente, permitir um desenvolvimento, mais rápido, de pipelines.
novembro 7, 2014, 14:30
Publicação
Obra sujeita a Direitos de Autor
Orientação
CO-ORIENTADOR
European Molecular Biology Laboratory (EMBL), Heidelberg, Alemanha
Investigador
ORIENTADOR
Departamento de Engenharia Informática (DEI)
Professor Associado