Dissertação

{en_GB=Matching Census Data Records} {} EVALUATED

{pt=O processo de emparelhar dois registos, que se referem à mesma entidade, é denominado por Emparelhamentos de Registos (Record Linkage). Em Portugal, o INE (Instituto Nacional de Estatística) começou um estudo de viabilidade com o intuito de começar a usar informação administrativa nos Census. No entanto, devido a erros e anonimização nos dados, o INE não conseguiu emparelhar todos os registos. Deste modo, este trabalho tem como objetivo emparelhar registos de bases de dados administrativas para melhorar os Census em Portugal. Além disso, esta dissertação apresenta métodos de Emparelhamento de Registos tendo em conta a eficácia, eficiência e trabalhos relacionados com os Census. Também, será apresentado a solução baseada em Aprendizagem Supervisionada, assim como métodos para avaliar os resultados. A metodologia proposta conduziu a um acréscimo no número de emparelhamentos onde o melhor resultado foi entre a BDIC (Registo Civil) e a AT (Autoridade Tributária) ao emparelhar 244 903 registos o que representa um aumento de 60.95%., en=Record Linkage is the task of matching two records that refer to the same entity. In Portugal, Statistics Portugal (SP) started a study to use administrative data in the Census. However, due to inconsistent and anonymised data, Statistics Portugal was unable to pair all the records. In this context, this work aims to match records of administrative databases for improving the process of the Portuguese data Census. This dissertation presents methods for record linkage taking into account effectiveness, efficiency and related Census works. Moreover, presents a record linkage system based on Supervised Learning as well as methods to evaluate the results. Our methodology led to an increase of the records matched where the best result was between Civil Population Register (BDIC) and Tax Authority (AT) by pairing 244 903 records which represent a 60.95% increase.}
{pt=Emparelhamento de Registos, Census, Machine Learning, Regressão Logística., en=Record Linkage, Census, Machine Learning, Logistic Regression}

Novembro 6, 2017, 13:0

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Pável Pereira Calado

Departamento de Engenharia Informática (DEI)

Professor Associado

ORIENTADOR

Mário Jorge Costa Gaspar da Silva

Departamento de Engenharia Informática (DEI)

Professor Catedrático