Dissertação
Emparelhamento de Dados Censitários EVALUATED
Está em curso um estudo de viabilidade para que Portugal, através do INE, possa obter parte da informação censitária através de fontes de dados administrativos. O processo torna-se complexo devido ao facto de não haver um número único do cidadão, inconsistências nos dados, e dados anonimizados/pseudonimizados por determinação da CNPD. Esta dissertação apresenta uma abordagem baseada no emparelhamento dos registos disponibilizados, recorrendo a métodos de aprendizagem automática (probabilísticos). Com o sistema desenvolvido, foi possível, a título de exemplo detectar 244.903 novos emparelhamentos entre registos das bases dados de Identificação Civil (Cartão do Cidadão) e Autoridade Tributária ( IRS ), representando um acréscimo de 64,94%, e 47.836 novos emparelhamentos, um acréscimo de 19,21%, com a base de dados da Segurança Social, relativamente aos registos não emparelhados por métodos exactos. Os resultados obtidos sustentam a viabilidade da metodologia e do software desenvolvido para o emparelhamento dos dados administrativos que são hoje disponibilizados ao INE.
outubro 18, 2017, 9:30
Publicação
Obra sujeita a Direitos de Autor
Orientação
ORIENTADOR
Mário Jorge Costa Gaspar da Silva
Departamento de Engenharia Informática (DEI)
Professor Catedrático