Dissertação

Matching Census Data Records EVALUATED

O processo de emparelhar dois registos, que se referem à mesma entidade, é denominado por Emparelhamentos de Registos (Record Linkage). Em Portugal, o INE (Instituto Nacional de Estatística) começou um estudo de viabilidade com o intuito de começar a usar informação administrativa nos Census. No entanto, devido a erros e anonimização nos dados, o INE não conseguiu emparelhar todos os registos. Deste modo, este trabalho tem como objetivo emparelhar registos de bases de dados administrativas para melhorar os Census em Portugal. Além disso, esta dissertação apresenta métodos de Emparelhamento de Registos tendo em conta a eficácia, eficiência e trabalhos relacionados com os Census. Também, será apresentado a solução baseada em Aprendizagem Supervisionada, assim como métodos para avaliar os resultados. A metodologia proposta conduziu a um acréscimo no número de emparelhamentos onde o melhor resultado foi entre a BDIC (Registo Civil) e a AT (Autoridade Tributária) ao emparelhar 244 903 registos o que representa um aumento de 60.95%.
Emparelhamento de Registos, Census, Machine Learning, Regressão Logística.

Novembro 6, 2017, 13:0

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Pável Pereira Calado

Departamento de Engenharia Informática (DEI)

Professor Associado

ORIENTADOR

Mário Jorge Costa Gaspar da Silva

Departamento de Engenharia Informática (DEI)

Professor Catedrático