Dissertação

Auditable Data Provenance in Streaming Data Processing EVALUATED

Stream processing tem ganho importância na análise de Big Data devido à necessidade de análise em tempo real de dados ilimitados. Erros no processamento de data em sistemas pode levar a resultados incorretos, criando a necessidade de examinar em detalhe os fluxos de data e transformações. Data provenance é crucial para entender os erros que ocorrem e justificar resultados obtidos em stream processing. No entanto, isto não é linear devido à natureza dinâmica do processo. Soluções existentes são maioritariamente incompletas, faltando fine-grained provenance. Neste trabalho, é realizado um estudo de stream processing e data provenance, que permite propor uma solução que apresenta três pipelines interligados, compostos por módulos Python. Ao testar num ambiente controlado, damos ênfase às métricas de desempenho, mostrando a capacidade do sistema de preservar data provenance e oferecer informação detalhada num cenário semelhante ao mundo real. Os resultados mostram um avanço significativo em data tracing de forma confiável e na gestão simultânea de sistemas de stream processing.
Stream Processing, Data Provenance, Audit, Lineage

novembro 16, 2023, 13:0

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Luís Manuel Antunes Veiga

Departamento de Engenharia Informática (DEI)

Associate Professor

ORIENTADOR

Paulo Jorge Fernandes Carreira

Departamento de Engenharia Informática (DEI)

Associate Professor