Dissertação

{en_GB=Census Optimization Using Machine Learning Techniques} {} EVALUATED

{pt=O objectivo desta dissertação é fazer uso de dados administrativos dispersos entre várias bases de dados e utilizá-lo para melhorar o método utilizado para a realização de Census no território Português. A utilização destes dados irá reduzir o tempo e o custo necessários para a realização de census, o que, por sua vez, pode permitir que isto aconteça com uma frequência e de forma mais confiável. Para atingir este objetivo, foi desenvolvido um protótipo composto de três componentes: limpeza e normalização de dados, indexação usando standard blocking e classificação usando técnicas de aprendizagem automática. Eu testo várias otimizações usando algoritmos diferentes para aumentar a quantidade de conflitos resolvidos e a confiabilidade dos pares emparelhados. Os resultados obtidos suportam a viabilidade desta metodologia e do software desenvolvido para o emparelhamento de dados administrativos que estão agora ao dispor do INE o que, consequentemente, irá aumentar a cobertura da BPR (Base da População Residente)., en=The objective of this dissertation is to make use of administrative data scattered between several databases and use it to improve the Portuguese Census. Using such data will reduce the time and cost necessary to perform a census possible, which may in turn allow it to happen more often and in a more reliable way. To achieve this goal a prototype was developed consisting of three components: data cleaning and normalization, indexing using standard blocking, and classification using machine learning techniques. I study several optimizations using different algorithms to increase the amount of solved conflicts and the reliability of matched pairs. The obtained results support the feasibility of the methodology and software developed for the pairing of administrative data that are now available at Statistics Portugal and shall, consequently, provide an increase in the coverage of BPR (Base da População Residente).}
{pt=Census, Emparelhamento de Strings, Aprendizagem Automática, Classificação, Blocagem, Resolução de Conflito, en=Census, String Matching, Classification, Machine Learning, Blocking, Conflict Solving}

Novembro 7, 2018, 11:30

Orientação

ORIENTADOR

Pável Pereira Calado

Departamento de Engenharia Informática (DEI)

Professor Associado

ORIENTADOR

Mário Jorge Costa Gaspar da Silva

Departamento de Engenharia Informática (DEI)

Professor Catedrático