Dissertação

{pt_PT=Emparelhamento de Dados Censitários} {} EVALUATED

{pt=Está em curso um estudo de viabilidade para que Portugal, através do INE, possa obter parte da informação censitária através de fontes de dados administrativos. O processo torna-se complexo devido ao facto de não haver um número único do cidadão, inconsistências nos dados, e dados anonimizados/pseudonimizados por determinação da CNPD. Esta dissertação apresenta uma abordagem baseada no emparelhamento dos registos disponibilizados, recorrendo a métodos de aprendizagem automática (probabilísticos). Com o sistema desenvolvido, foi possível, a título de exemplo detectar 244.903 novos emparelhamentos entre registos das bases dados de Identificação Civil (Cartão do Cidadão) e Autoridade Tributária ( IRS ), representando um acréscimo de 64,94%, e 47.836 novos emparelhamentos, um acréscimo de 19,21%, com a base de dados da Segurança Social, relativamente aos registos não emparelhados por métodos exactos. Os resultados obtidos sustentam a viabilidade da metodologia e do software desenvolvido para o emparelhamento dos dados administrativos que são hoje disponibilizados ao INE., en=A feasibility study is under way to enable Statistics Portugal to obtain part of the census information through administrative data sources. The process becomes complex because there is not a personal unique number, inconsistencies in the data and anonymised/pseudonimized data by determination of the Data Protection Authority (CNPD). This work presents an approach based on matching available data using Machine Learning methods. With the developed system, it was possible, for example, to detect 244,903 new matches between records of the databases of the Civil Population Register (Citizen's Card) and Tax Authority (IRS), representing an increase of 64.94%, and 47,836 new matches, an increase of 19.21%, with the Social Security database considering records not matched by exact methods. The obtained results support the feasibility of the methodology and software developed for pairing the administrative data that are now available at Statistics Portugal.}
{pt=Integração de Dados, Qualidade de Dados, Aprendizagem Automática, Censos, en=Record Linkage, Data Quality, Machine Learning, Census}

outubro 18, 2017, 9:30

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Pável Pereira Calado

Departamento de Engenharia Informática (DEI)

Professor Associado

ORIENTADOR

Mário Jorge Costa Gaspar da Silva

Departamento de Engenharia Informática (DEI)

Professor Catedrático