Dissertação

Comparing software stacks for Big Data batch processing EVALUATED

O progresso da tecnologia tem levado as empresas a produzir grandes volumes de dados em formatos variados, a que se convencionou chamar Big Data. Ao mesmo tempo, para tomar as melhores decisões de negócio, as empresas necessitam de obter informação de forma mais rápida. Alguns exemplos de sistemas open-source usados para processar Big Data incluem o Hadoop, Hive, Spark e Flink. No entanto, estes sistemas dependem de pilhas de software complexas, o que diminui a eficiência de processamento. Uma das abordagens para resolver este problema consiste em remover camadas de software e produzir um sistema que fornece as mesmas funcionalidades. O Unicage é um sistema comercial baseado em Unix shell scripting que segue esta abordagem, prometendo melhor desempenho para processamento de dados. O objectivo deste trabalho foi a analisar e avaliar o desempenho do sistema Unicage, quando comparado a outros sistemas de processamento, nomeadamente o Hadoop e o Hive. Propomos e produzimos uma benchmark, a que chamámos LeanBench, que permitiu realizar vários testes de forma a clarificar se a complexidade de pilhas de software é ou não de facto um factor significativo no desempenho de processamento de Big Data. Esta benchmark inclui workloads típicas de processamento, compostas por várias operações, executadas de forma comparável em cada um dos sistemas. Os testes realizados permitiram concluir que todos os sistemas apresentam vantagens e desvantagens, e que a escolha do melhor sistema está dependente do tipo de tarefa de processamento.
Dados de grande volume, Comparação de desempenho, Processamento de dados, Pilhas de software, Apache Hadoop, Unicage

Novembro 10, 2017, 13:0

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Helena Isabel De Jesus Galhardas

Departamento de Engenharia Informática (DEI)

Professor Auxiliar

ORIENTADOR

Miguel Filipe Leitão Pardal

Departamento de Engenharia Informática (DEI)

Professor Auxiliar