Dissertação

Advanced Sampling in Stream Processing Systems EVALUATED

A revolução Big Data causou um crescimento exponencial na quantidade de dados gerados e uma expansão nos métodos com os quais esses dados são transformados em informações valiosas. À medida que a velocidade de geração de dados se acelerava, também a definição de métodos de processamento de dados mais rápidos e eficientes. Para isso, surgiu um novo método de processamento de dados, denominado processamento de streams. O processamento de streams é o paradigma mais recente de processamento de dados. Ele fornece uma abordagem eficiente para extrair informações de dados assim que é recebido. No entanto, picos na taxa de transferência de dados podem ter um impacto negativo no cumprimento das garantias de precisão e latência oferecidas pelos sistemas de processamento de córregos. Para lidar com essa expansão de dados, o sistema deve ser capaz de ser escalável em termos de recursos. No entanto, os recursos não são ilimitados. Assim, uma alternativa é reduzir a quantidade de dados processados usando sistemas de derramamento de carga ou amostragem. Este trabalho propõe amostragem dos dados (sampling), como forma de reduzir o volume de informação a tratar, de modo a solucionar este problema. Oferece uma implementação transparente para o utilizador de dois métodos de sampling na framework Apache Spark Streaming. É também implementada uma framework para o desenvolvimento de métodos de sampling adicionais. Os resultados mostram que a redução do volume de dados de entrada leva à redução dos tempos de processamento, mas mantendo boa precisão na informação extraída.
Stream Processing, Sistemas de Computação aproximados, Redução de dados, Amostragem, Apache Spark

Novembro 8, 2016, 10:30

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Luís Manuel Antunes Veiga

Departamento de Engenharia Informática (DEI)

Professor Associado

ORIENTADOR

Rodrigo Seromenho Miragaia Rodrigues

Departamento de Engenharia Informática (DEI)

Professor Catedrático