Dissertação

{en_GB=GDPR Personal Files Scanner - Automatic classification of files in accordance with the GDPR} {} EVALUATED

{pt=O Regulamento Geral sobre a Proteção de Dados (RGPD) é o regulamento europeu sobre a proteção de pessoas no que diz respeito ao processamento e livre circulação de ficheiros pessoais e entrou em vigor em maio de 2018. De acordo com o artigo 5, parágrafo 2, do capítulo 2 do RGPD, os responsáveis pelo tratamento dos dados são responsáveis por todo o ciclo de vida desses mesmos dados pessoais recolhidos até então. A auditoria e a prestação de contas da transferência de dados requerem o desenvolvimento de ferramentas que acompanhem trocas de documentos e dados. Esta tese apresenta o primeiro sistema que processa documentos automaticamente e determina se contêm informações que podem ser consideradas pessoais tendo em conta o RGPD. Utiliza Árvores de Decisão, complementadas por uma série de heurísticas para a criação de vetores de características. Para treinar o sistema, um conjunto de dados foi desenvolvido. Estes documentos podem ser reais ou sintéticos e representam várias classes de documentos que podem conter informações pessoais. O sistema foi implementado usando o Weka, validado contra documentos reais e integrado num servidor de email e foi introduzido a controlar a transferência de dados pessoais para pens USB. O algoritmo atinge uma precisão de 83,3% e 87,4% em diferentes conjuntos de documentos. O uso deste sistema, integrado nas infraestruturas de comunicação eletrónica das empresas (servidor de email, repositórios de documentos), ajudará as empresas a cumprir partes dos requisitos do RGPD, no que diz respeito ao controle das transferências de dados., en=The General Data Protection Regulation (GDPR) is the European regulation on the protection of natural persons with respect to the processing and free movement of personal files and was fully enforced in May 2018. According to chapter 2, article 5, paragraph 2 of the GDPR, controllers are accountable for all the life cycle of the personal data collected so far. The auditing and further accountability of the data transfer requires the development of tools that track document and data exchanges done by the various actors of the process. This thesis presents the first system that automatically processes documents and determines if such documents contain information that can be considered personal in the light of the GDPR. It uses Decision Trees, complemented by a series of heuristics for the creation of feature vectors. To train the system a new data-set of documents was developed. These documents are either synthetic of real and represent various classes of documents that can contain personal information. The system was implemented using Weka, validated against real documents and integrated into a mail server and keeping track of file's transference to USB drives. The algorithm achieves an accuracy of 83.3% and 87.4% on different sets of documents. The use this system, integrated into companies' electronic communication infrastructures (mail server, document repositories) will help companies fulfill parts of the GDPR requirements, with respect to the control and traceability of the data transfers.}
{pt=Reg.º Geral sobre a Proteção de Dados, Aprendizagem Autónoma, Árvores de Decisão, Detecção de dados pessoais, en=General Data Protection Regulation, Machine Learning, Decision trees, Detection of personal data}

Junho 21, 2019, 14:0

Orientação

ORIENTADOR

João Nuno De Oliveira e Silva

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Professor Auxiliar