Dissertação

Emparelhamento de Dados Censitários EVALUATED

Está em curso um estudo de viabilidade para que Portugal, através do INE, possa obter parte da informação censitária através de fontes de dados administrativos. O processo torna-se complexo devido ao facto de não haver um número único do cidadão, inconsistências nos dados, e dados anonimizados/pseudonimizados por determinação da CNPD. Esta dissertação apresenta uma abordagem baseada no emparelhamento dos registos disponibilizados, recorrendo a métodos de aprendizagem automática (probabilísticos). Com o sistema desenvolvido, foi possível, a título de exemplo detectar 244.903 novos emparelhamentos entre registos das bases dados de Identificação Civil (Cartão do Cidadão) e Autoridade Tributária ( IRS ), representando um acréscimo de 64,94%, e 47.836 novos emparelhamentos, um acréscimo de 19,21%, com a base de dados da Segurança Social, relativamente aos registos não emparelhados por métodos exactos. Os resultados obtidos sustentam a viabilidade da metodologia e do software desenvolvido para o emparelhamento dos dados administrativos que são hoje disponibilizados ao INE.
Integração de Dados, Qualidade de Dados, Aprendizagem Automática, Censos

outubro 18, 2017, 9:30

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Pável Pereira Calado

Departamento de Engenharia Informática (DEI)

Professor Associado

ORIENTADOR

Mário Jorge Costa Gaspar da Silva

Departamento de Engenharia Informática (DEI)

Professor Catedrático