Dissertação
Comparing software stacks for Big Data batch processing EVALUATED
O progresso da tecnologia tem levado as empresas a produzir grandes volumes de dados em formatos variados, a que se convencionou chamar Big Data. Ao mesmo tempo, para tomar as melhores decisões de negócio, as empresas necessitam de obter informação de forma mais rápida. Alguns exemplos de sistemas open-source usados para processar Big Data incluem o Hadoop, Hive, Spark e Flink. No entanto, estes sistemas dependem de pilhas de software complexas, o que diminui a eficiência de processamento. Uma das abordagens para resolver este problema consiste em remover camadas de software e produzir um sistema que fornece as mesmas funcionalidades. O Unicage é um sistema comercial baseado em Unix shell scripting que segue esta abordagem, prometendo melhor desempenho para processamento de dados. O objectivo deste trabalho foi a analisar e avaliar o desempenho do sistema Unicage, quando comparado a outros sistemas de processamento, nomeadamente o Hadoop e o Hive. Propomos e produzimos uma benchmark, a que chamámos LeanBench, que permitiu realizar vários testes de forma a clarificar se a complexidade de pilhas de software é ou não de facto um factor significativo no desempenho de processamento de Big Data. Esta benchmark inclui workloads típicas de processamento, compostas por várias operações, executadas de forma comparável em cada um dos sistemas. Os testes realizados permitiram concluir que todos os sistemas apresentam vantagens e desvantagens, e que a escolha do melhor sistema está dependente do tipo de tarefa de processamento.
novembro 10, 2017, 13:0
Publicação
Obra sujeita a Direitos de Autor
Orientação
ORIENTADOR
Helena Isabel De Jesus Galhardas
Departamento de Engenharia Informática (DEI)
Professor Auxiliar
ORIENTADOR
Departamento de Engenharia Informática (DEI)
Professor Auxiliar