Dissertação

Efficient Support for Selective MapReduce Queries EVALUATED

Atualmente, existe uma crescente necessidade de analisar grandes volumes de dados, uma tarefa que requer infraestruturas de computação e armazenamento especializadas. O paradigma MapReduce tem-se tornado fundamental para paralelizar computações complexas sobre grandes volumes de dados. Conhecido pela sua escalabilidade, fácil utilização e tolerância a faltas, o MapReduce tem sido extensamente utilizado por aplicações de diferentes domínios. O trabalho descrito nesta tese propõe e avalia o ShortMap, um sistema destinado a suportar eficientemente pesquisas MapReduce que necessitam de processar apenas um sub-conjunto de todos os dados. O sistema proposto recorre a um formato de dados apropriado para suportar pesquisas seletivas e mecanismos de indexação de forma a melhorar a rapidez de acesso aos dados, encurtando significativamente a fase Map das execuções. Uma extensa avaliação experimental do ShortMap mostra que, ao evitar ler blocos irrelevantes, a nossa solução permite atingir uma melhoria de até 80 vezes quando comparada com a distribuição atual do Hadoop. Para além disso, o nosso sistema supera também outras concretizações do MapReduce que recorrem a variantes das técnicas integradas no ShortMap. O ShortMap é de código-fonte aberto e está disponível para ser descarregado.
Desempenho, MapReduce, Grandes Volumes de Dados

Novembro 7, 2014, 18:0

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Luís Eduardo Teixeira Rodrigues

Departamento de Engenharia Informática (DEI)

Professor Catedrático