Dissertação

{en_GB=Multilingual Automated Text Anonymization} {} EVALUATED

{pt=A partilha de dados sob a forma de texto é importante numa vasta gama de actividades. Porém, a partilha de dados suscita preocupações quanto a privacidade no caso em que os textos contêm informação sensível. A anonimização automática de texto é uma solução para a remoção das informações confidenciais contidas em documentos. No entanto, esta é uma tarefa desafiadora devido à forma não estruturada dos dados em forma de texto e da ambiguidade da língua natural. Neste trabalho, apresentamos a implementação de um sistema de anonimização multilingue para documentos em quatro idiomas: Alemão, Espanhol, Inglês e Português. Quatro métodos diferentes de anonimização foram avaliados e comparados. Dois métodos substituem a informação sensível por rótulos artificiais: supressão e etiquetação. Os outros dois métodos substituem a informação sensível por expressões textuais: a substituição aleatória e generalização. A avaliação mostrou que o uso dos métodos de etiquetação e de generalização facilitam a leitura dos textos anonimizados, evitando alguns deslizes semânticos causadas pela remoção da informação original., en=Sharing data in the form of text is important for a wide range of activities but it also raises a concern about privacy when sharing data that could be sensitive. Automated text anonymization is a solution for removing all the sensitive information from documents. However, this is a challenging task due to the unstructured form of textual data and the ambiguity of natural language. In this work, we present the implementation of a multilingual anonymization system for text documents in four languages: English, German, Portuguese and Spanish. Four different methods of anonymization are evaluated and compared. Two methods replace the sensitive information by artificial labels: suppression and tagging. The other two methods replace the information by textual expressions: random substitution and generalization. Evaluation showed that the use of the tagging and the generalization methods facilitates the reading of an anonymized text while preventing some semantic drifts caused by the remotion of the original information.}
{pt=Anonimização de Texto, Privacidade, Reconhecimento de Entidades Mencionadas, Resolução de Co-referências, Sanitização de Dados, en=Text Anonymization, Privacy, Named Entity Recognition, Coreference Resolution, Sanitization}

Junho 3, 2016, 13:0

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Nuno João Neves Mamede

Departamento de Engenharia Informática (DEI)

Professor Associado

ORIENTADOR

João de Almeida Varelas Graça

Unbabel

Doutor