FenixEdu™

Dissertação

{en_GB=Multi-Speaker TTS With Deep Learning} {} EVALUATED

Detalhes: {pt=A recente evolução tecnológica contribuiu para um desenvolvimento considerável da área de Síntese da Fala. Os sistemas de síntese atuais produzem fala em tempo cada vez mais reduzido e para diversas vozes. O presente estudo desenvolveu um sistema de texto para fala (em inglês, TTS) para português europeu, que permite incorporar novas vozes sem necessitar de um conjunto de dados extenso e um processo de treino exaustivo. A estrutura do modelo proposto contempla dois sistemas: um sistema regressivo sequence-to-sequence (Seq2Seq) que produz representações acústicas a partir de texto, seguido de um vocoder neuronal, destinado à geração de áudio a partir de representações acústicas. O modelo proposto emprega um vocoder universal que não carece de fine-tuning perante a adição de novas vozes. O modelo regressivo Seq2Seq gera representações acústicas na forma de Mel-espetrogramas. Este processo decorre da descodificação da combinação de representações linguísticas (linguistic embeddings), extraídas a partir de texto, e representações da identidade de voz (speaker embeddings). O modelo regressivo opera para várias vozes e permite fine-tuning para múltiplas vozes novas simultaneamente. Os testes subjetivos demonstraram que o modelo proposto registou um desempenho comparável ao de outro sistema TTS estado-da-arte, empregando menos de metade dos dados para treino. Além disso, o sistema proposto gerou resultados relevantes quando treinado com um conjunto de dados reduzido - menos de 3 minutos de fala. Por último, o vocoder universal teve um desempenho, em média, 11 vezes mais rápido que o vocoder neuronal empregue no sistema TTS estado-da-arte utilizado para comparação., en=Recent advancements in technology have allowed for great development in the field of Speech Synthesis. As such, present-day speech synthesis applications are expected to function for multiple voices, and ensure a fast generation of natural-sounding synthetic speech for enhanced feasibility. This study suggests a multi-speaker text-to-speech (TTS) system for European Portuguese that enables the addition of new speakers without requiring extensive training and data. The proposed model framework comprises two systems: a sequence-to-sequence (Seq2Seq) regressive stage for acoustic feature prediction, followed by a neural vocoder for waveform generation. The model employs a universal vocoder which does not require fine-tuning for new voices. The Seq2Seq regressive model predicts acoustic features in the form of Mel-spectrograms by decoding the combination of linguistic embeddings - extracted from the text input -, and speaker embeddings conveying the target speaker identity. The model operates in a multi-speaker setting and can be fine-tuned simultaneously to multiple unseen speakers. Subjective tests have shown that the proposed model registered comparable performance to another state-of-the-art TTS system while employing less than half of training data. Furthermore, the proposed model was capable of producing meaningful results when trained with reduced data - under three minutes of speech. At last, the universal vocoder performed, on average, 11 times faster than the speaker-dependent neural vocoder of the state-of-the-art TTS approach used for comparison.}
Keywords: {pt=Síntese de Fala, Multi-Speaker TTS, Conversão de Voz, Clonagem de Voz, en=Speech Synthesis, Multi-Speaker TTS, Voice Conversion, Voice Cloning}

Discussão: dezembro 23, 2020, 11:0