FenixEdu™

Dissertação

Multi-Speaker TTS With Deep Learning EVALUATED

Detalhes: A recente evolução tecnológica contribuiu para um desenvolvimento considerável da área de Síntese da Fala. Os sistemas de síntese atuais produzem fala em tempo cada vez mais reduzido e para diversas vozes. O presente estudo desenvolveu um sistema de texto para fala (em inglês, TTS) para português europeu, que permite incorporar novas vozes sem necessitar de um conjunto de dados extenso e um processo de treino exaustivo. A estrutura do modelo proposto contempla dois sistemas: um sistema regressivo sequence-to-sequence (Seq2Seq) que produz representações acústicas a partir de texto, seguido de um vocoder neuronal, destinado à geração de áudio a partir de representações acústicas. O modelo proposto emprega um vocoder universal que não carece de fine-tuning perante a adição de novas vozes. O modelo regressivo Seq2Seq gera representações acústicas na forma de Mel-espetrogramas. Este processo decorre da descodificação da combinação de representações linguísticas (linguistic embeddings), extraídas a partir de texto, e representações da identidade de voz (speaker embeddings). O modelo regressivo opera para várias vozes e permite fine-tuning para múltiplas vozes novas simultaneamente. Os testes subjetivos demonstraram que o modelo proposto registou um desempenho comparável ao de outro sistema TTS estado-da-arte, empregando menos de metade dos dados para treino. Além disso, o sistema proposto gerou resultados relevantes quando treinado com um conjunto de dados reduzido - menos de 3 minutos de fala. Por último, o vocoder universal teve um desempenho, em média, 11 vezes mais rápido que o vocoder neuronal empregue no sistema TTS estado-da-arte utilizado para comparação.
Keywords: Síntese de Fala, Multi-Speaker TTS, Conversão de Voz, Clonagem de Voz

Discussão: dezembro 23, 2020, 11:0