Dissertação

Multilingual Automated Text Anonymization EVALUATED

A partilha de dados sob a forma de texto é importante numa vasta gama de actividades. Porém, a partilha de dados suscita preocupações quanto a privacidade no caso em que os textos contêm informação sensível. A anonimização automática de texto é uma solução para a remoção das informações confidenciais contidas em documentos. No entanto, esta é uma tarefa desafiadora devido à forma não estruturada dos dados em forma de texto e da ambiguidade da língua natural. Neste trabalho, apresentamos a implementação de um sistema de anonimização multilingue para documentos em quatro idiomas: Alemão, Espanhol, Inglês e Português. Quatro métodos diferentes de anonimização foram avaliados e comparados. Dois métodos substituem a informação sensível por rótulos artificiais: supressão e etiquetação. Os outros dois métodos substituem a informação sensível por expressões textuais: a substituição aleatória e generalização. A avaliação mostrou que o uso dos métodos de etiquetação e de generalização facilitam a leitura dos textos anonimizados, evitando alguns deslizes semânticos causadas pela remoção da informação original.
Anonimização de Texto, Privacidade, Reconhecimento de Entidades Mencionadas, Resolução de Co-referências, Sanitização de Dados

Junho 3, 2016, 13:0

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Nuno João Neves Mamede

Departamento de Engenharia Informática (DEI)

Professor Associado

ORIENTADOR

João de Almeida Varelas Graça

Unbabel

Doutor