Dissertação

Snapshotting in Hadoop Distributed File System for Hadoop Open Platform as Service EVALUATED

A quantidade de dados armazenados em centros de dados modernos cresce rapidamente hoje em dia. Sistemas distribuídos de larga escala, que mantêm grandes conjuntos de dados em centros de dados, são projetados para trabalhar com hardware comum. Devido à qualidade e quantidade dos componentes de hardware nesses sistemas, as faltas são consideradas eventos normais e, como tal, os sistemas distribuídos de ficheiros são projetados para ser altamente tolerante a faltas. Uma realização concreta de um tal sistema é o Hadoop Distributed File System (HDFS). Um snapshot consiste em capturar o estado do sistema de armazenamento num ponto exacto no tempo e pode ser utilizado para permitir a recuperação total dos dados quando ocorre uma falha. As aplicações manipulam os dados no sistema de ficheiros distribuído em nome de utilizadores ou administradores. Erros ao nível aplicacional ou até memso dos utilizadores podem remover informação por engano ou modificar dados de uma forma inesperada. Neste caso, os snapshots podem ser utilizados posteriormente para recuperar o sistema com o estado de um ponto anterior. Estes podem ser usados no treino de modelos, em anaálise de dados em tempo real, e também para backups rápidos (Hot Backups). Desenhámos e realizámos um mecanismso de snaphsots aninhados que permite vários snapshots em qualquer pasta. O snapshot de nível raiz permite o roll-back durante a actualização de software. Avaliámos os nossos mecanismos e algoritmos, demonstrando tempo para tirar um snapshot é constante e o tempo de roll-back é proporcional à quantidade de modifcações desde o snapshot.
Hadoop, HDFS, sistema de ficheiros distribu ́ıdo, Snapshots, HOPS

Setembro 19, 2014, 14:30

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Luís Manuel Antunes Veiga

Departamento de Engenharia Informática (DEI)

Professor Auxiliar