Dissertação
Auditable Data Provenance in Streaming Data Processing EVALUATED
Stream processing tem ganho importância na análise de Big Data devido à necessidade de análise em tempo real de dados ilimitados. Erros no processamento de data em sistemas pode levar a resultados incorretos, criando a necessidade de examinar em detalhe os fluxos de data e transformações. Data provenance é crucial para entender os erros que ocorrem e justificar resultados obtidos em stream processing. No entanto, isto não é linear devido à natureza dinâmica do processo. Soluções existentes são maioritariamente incompletas, faltando fine-grained provenance. Neste trabalho, é realizado um estudo de stream processing e data provenance, que permite propor uma solução que apresenta três pipelines interligados, compostos por módulos Python. Ao testar num ambiente controlado, damos ênfase às métricas de desempenho, mostrando a capacidade do sistema de preservar data provenance e oferecer informação detalhada num cenário semelhante ao mundo real. Os resultados mostram um avanço significativo em data tracing de forma confiável e na gestão simultânea de sistemas de stream processing.
novembro 16, 2023, 13:0
Publicação
Obra sujeita a Direitos de Autor
Orientação
ORIENTADOR
Departamento de Engenharia Informática (DEI)
Associate Professor
ORIENTADOR
Paulo Jorge Fernandes Carreira
Departamento de Engenharia Informática (DEI)
Associate Professor