Dissertação

{en_GB=Privacy in Paralinguistic Tasks} {} EVALUATED

{pt=O uso generalizado de dispositivos com acesso à internet, em conjunto com o mercado emergente de aplicações de exploração de dados, tem dado origem a preocupações relativas à privacidade dos seus utilizadores. Aproveitando a qualidade dos algoritmos de aprendizagem automática, muitos serviços utilizam dados sensíveis para extrair informações sobre os seus utilizadores. Quando comparada com outros tipos de dados, a fala destaca-se pela quantidade de informação que contém. Para além do conteúdo linguístico, a partir da fala é possível obter conteúdo paralinguístico, como a idade, género, estado de saúde e traços de personalidade do orador. No entanto, estas características também transformam a fala num alvo para entidades mal intencionadas, que pretendem obter informações sensíveis de utilizadores desprotegidos. Isto é especialmente verdade em aplicações relacionadas com saúde, nas quais um sistema tenta descobrir se um utilizador apresenta ou não sintomas de uma doença, uma vez que esta informação é extremamente sensível. Nesta tese mostramos como a Encriptação Homomórfica pode ser utilizada para construir Redes Neuronais (RN) baseadas em fala, mantendo a privacidade dos dados, dando especial ênfase a três doenças que afectam a fala: Constipação, Depressão e Doença de Parkinson. Para isto, numa primeira experiência, aplicamos às doenças referidas anteriormente uma RN Encriptada, cujas operações foram substituídas pelos seus equivalentes de Encriptação Homomórfica. De seguida, experimentamos a viabilidade de construir uma rede end-to-end para o mesmo fim. Por fim, mostramos como é possível discretizar uma RN e as suas entradas, de forma a utilizar uma técnica de batching com Encriptação Homomórfica., en=The widespread use of devices with internet access, together with the emerging market for data mining applications has raised concerns over the level of privacy currently given to users. Taking advantage of increasingly accurate Machine Learning algorithms, many services use sensitive data to extract information and make predictions about the characteristics of their users. Among other data types, speech stands out for the amount of information it holds. Aside from the linguistic content, from speech one can obtain paralinguistic information, such as the speaker’s age, gender, health and personality traits. However, the reasons that make speech useful also make it a target for malicious third parties intending to obtain sensitive information about unsuspecting users. This is especially true for health-related applications where a system may try to uncover whether someone presents symptoms of a medical condition, as this information is deeply sensitive. In this thesis we show how Homomorphic Encryption can be used to build speech-based privacy-preserving Neural Networks, with focus on three speech affecting conditions: the common Cold, Depression and Parkinson’s Disease. To this end, in a first experiment we apply an Encrypted Neural Network, whose operations have been replaced with their encrypted counterparts, to the three aforementioned conditions. On a second approach, we discuss and experiment on the feasibility of building an end-to-end network for the same purpose. Finally, as a last experiment we show how a Neural Network, and its input features, can be discretized in order to allow the use of a Homomorphic Encryption batching technique.}
{pt=Fala Patológica, Encriptação Homomórfica, Aprendizagem Automática, Privacidade, en=Pathological Speech, Paralinguistics, Privacy, Homomorphic Encryption, Machine Learning}

Setembro 26, 2018, 18:0

Orientação

ORIENTADOR

Isabel Maria Martins Trancoso

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Professor Catedrático

ORIENTADOR

Alberto Abad Gareta

Departamento de Engenharia Informática (DEI)

Professor Auxiliar