Dissertação

{en_GB=Automatic Detection of Profile Features} {} EVALUATED

{pt=Corpora de fala coletado usando crowdsourcing necessitam tipicamente de validações dispendiosas para verificar as características dos falantes, ou correta submissão. Adicionalmente, esta validação também deverá excluir gravações correspondentes a vários falantes que partilham a mesma conta, ou várias contas com o mesmo falante. Esta tese foca-se no uso de técnicas de reconhecimento de padrões de fala para realizar esta validação automática. Isto é efetuado treinando um sistema baseado no x-vector num corpus open-source e registando a primeira gravação de cada falante num trabalho de coleção de corpora, que é depois comparado com gravações subsequentes. Os embeddings resultantes são também utilizados para identificar género. Como teste, usou-se esta abordagem para validar diferentes datasets em 3 línguas, adotando técnicas de normalização de score. Os resultados mostram um EER abaixo dos 4% em todas as experiências, indicando a possibilidade de adotar o mesmo limiar sem perda substancial de performance. Isto permite a validação de tarefas de crowdsourcing imediatamente após submissão. Esta tese também envolveu a participação num desafio internacional de computação paralinguística, onde foi estudado a predição automática através da fala de sinais de respiração obtidos através de cintos respiratórios. Analisou-se os sinais originais e preditos e identificou-se um subset de sinais irregulares que resultaram na pior performance, mostrando como estes afetam os resultados. Propôs-se várias variantes do sistema base end-to-end, como o BiLSTM e a decomposição AM/FM como input, mostrando que estes são capazes de predizer padrões respiratórios e parâmetros clinicamente relevantes, como a taxa de respiração, em sessões simuladas de videoconferência. , en=Speech corpora collected via crowdsourcing typically require costly validation to verify certain characteristics of speakers, or submission correctness. Moreover, this validation should also exclude recordings corresponding to multiple speakers sharing the same account or multiple accounts for the same speaker. This thesis focus on the use of speech pattern recognition techniques to perform this automatic validation. This is accomplished by training an x-vector based system in a large open-source corpus, and enrolling the first utterance from each speaker in a crowdsourcing corpora collection job which is then compared to subsequent task completions. The resulting speaker embeddings are also used to identify gender. As a proof-of-concept, we used this approach to validate different datasets in 3 languages, adopting score normalisation techniques. Results show an EER below the 4% mark on all experiments, indicating the possibility to adopt the same threshold without substantial loss of performance. This enables the validation of crowdsourced task completions immediately after submission. This thesis also involved the participation in an international Computational Paralinguistics Challenge, where we studied the automatic prediction from conversational speech of breath signals obtained from respiratory belts. We analysed both original and predicted signals and identified the subsets of most irregular belt signals which yield the worst performance, and showed how they affect results. We proposed several variants of an end-to-end baseline system, such as BiLSTM, and AM/FM decomposition as input. We showed that these models can predict breathing patterns and clinically relevant parameters, such as breathing rate, in simulated video-conferencing sessions.}
{pt=Crowdsourcing, Paralinguística, Verificação do Falante, Verificação de Género, Deteção da respiração., en=Crowdsourcing, Paralinguistics, Speaker Verification, Gender Recognition, Breath Detection.}

Dezembro 9, 2020, 9:0

Orientação

ORIENTADOR

Rui Pedro dos Santos Correia

Defined Crowd

Doutor

ORIENTADOR

Isabel Maria Martins Trancoso

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Professor Catedrático