FenixEdu™

Dissertação

{en_GB= Integrating Approximate Duplicate Detection into Pentaho Data Integration} {} EVALUATED

Detalhes: {pt=Os dados são um recurso fundamental para as empresas e são gerados a ritmos muito elevados. Conjuntos de dados grandes são propensos a problemas de qualidade que podem ter um impacto negativo nos resultados de análises feitas aos dados. A presença de registos duplicados aproximados é um problema de qualidade de dados que surge normalmente num contexto de integração de dados. Integração de dados permite um acesso uniforme a dados de fontes diferentes. Registos duplicados aproximados são registos que, podendo não ser iguais, representam a mesma entidade real. Se este problema não for detetado, estes registos serão erradamente processados como entidades diferentes. As ferramentas de integração de dados podem beneficiar de mecanismos de deteção de duplicados aproximados, mas nem todas oferecem este recurso. O Pentaho Data Integration (PDI) é uma ferramenta de integração de dados open source que foi usada como caso de estudo para a inclusão de deteção de duplicados aproximados. Este trabalho propõe dois novos steps de PDI que permitam ao utilizador calcular grupos de duplicados aproximados onde todos os elementos de um grupo representam a mesma entidade real. Foram também feitas modificações a uma visualização de PDI já existente, de forma a facilitar a interpretação dos resultados dos steps. A nossa solução foi validada em termos de correção, performance e usabilidade. Os resultados da avaliação foram positivos, oferecendo aos utilizadores a possibilidade de calcular duplicados aproximados sem a necessidade de fazer o produto cartesiano dos dados e sem ser necessária uma grande familiaridade com o PDI. , en=Data is a fundamental asset for companies and it keeps being produced at a very high rate. Large datasets are prone to data quality problems that can have a negative impact on the results of analysis based on the data. The presence of approximate duplicate records is a data quality problem that arises commonly in a data integration context. Data integration enables a uniform access to different data sources. Approximate duplicate records are records that may not be identical but represent the same real-world entity. If this problem is not detected, these records will be wrongly processed as separate entities. Data integration tools can benefit from an approximate duplicate detection mechanism, but not all tools provide one. Pentaho Data Integration (PDI) is an open source data integration tool that was used as a case study for the inclusion of approximate duplicate detection. This work proposes two new PDI steps that allow the user to compute groups of approximate duplicates where all the elements of each group are considered approximate duplicates that represent the same entity. Modifications were made to an already existing PDI visualization to facilitate the visualization of the steps results. Our solution was evaluated considering correctness, performance and usability. The results of the evaluation were overall positive, offering users the possibility to compute approximate duplicate records without the need to perform a cartesian product of the data and without having to be highly familiar with PDI.}
Keywords: {pt=Deteção de Duplicados Aproximados, Data Profiling, Qualidade de Dados, Pentaho Data Integration, en=Approximate Duplicate Detection, Data Profiling, Data Quality, Pentaho Data Integration}

Discussão: novembro 29, 2019, 9:0