Dissertação

{en_GB=Descoberta de dados pessoais, potencialmente sensíveis} {} EVALUATED

{pt=A inovação tecnológica dos últimos anos, designadamente a relacionada com a automatização dos processos das organizações, conduziu à massificação do volume de dados armazenados. Muitos dos dados que as organizações manuseiam na realização das suas atividades diárias são, grande parte, dados de natureza pessoal e por isso de caracter sensível. Com a entrada em vigor do regulamento geral de proteção de dados, no espaço europeu, é vital garantir a proteção dos titulares dos dados e verificar se as organizações estão a cumprir com o preceituado no regulamento. O trabalho relaciona como a descoberta de dados pode ser realizada recorrendo às técnicas de data mining, machine learning, extração de informação em dados estruturados e não estruturados. Estende-se aos desafios do processamento da língua natural através de produtos de fonte aberta que utilizem ferramentas, utilitários e bibliotecas para perceber de que forma é que podem ser aplicadas na descoberta de dados pessoais. A solução proposta é assente na instanciação de um protótipo capaz de descobrir de uma forma automática potenciais dados sensíveis na língua portuguesa através de atributos selecionados e apresentar um método que demonstre a capacidade para lidar com o ciclo do tratamento de dados. Constata-se que o desafio não se restringe apenas à descoberta de dados, é preciso treinar modelos NLP com vista a alcançar bons resultados. Assim como, é imprescindível aliar a segurança tecnológica à privacidade dos dados, envolvendo as áreas de negócio através de aproximações sucessivas ao longo de todo o processo de tratamento de dados pessoais., en=The technological innovation of the last years, namely related to the automation of the processes of the organizations, has led to the massification of the volume of stored data. Many of the data that organizations handle in carrying out their day-to-day activities are, for the most part, data of a personal nature and therefore of a sensitive nature. With the entry into force of the general data protection regulation in the European area, it is vital to ensure the protection of data subjects and to verify that organizations are complying with the rules set out in the regulation. The work relates how data discovery can be performed using techniques of data mining, machine learning, extraction of information in structured and unstructured data. It extends to the challenges of natural language processing through open source products that use tools, utilities, and libraries to realize how they can be applied to the discovery of personal data. The proposed solution is based on the instantiation of a prototype capable of automatically discovering potential sensitive data in the Portuguese language through selected attributes and presenting a method that demonstrates the capacity to handle the data processing cycle. It is noted that the challenge is not limited to data discovery, it is necessary to train NLP models in order to achieve good results. As well, it is essential to combine technological security with data privacy, involving the business areas through successive approximations throughout the process of processing personal data.}
{pt=Tratamento de dados pessoais, Privacidade de dados pessoais, Processamento de língua natural, Descoberta de dados pessoais, Dados estruturados e não estruturados, en=Processing of personal data, Privacy of personal data, Natural language processing, Discovery of personal data, Structure and unstructured data.}

Novembro 12, 2018, 14:30

Orientação

ORIENTADOR

José Manuel da Costa Alves Marques

Departamento de Engenharia Informática (DEI)

Professor Catedrático

ORIENTADOR

Paulo Alexandre Guerreiro Fernandes

EGOV

Technical lider