Dissertação

{en_GB=Exploration of Audio Feedback for L2 English Prosody Training} {} EVALUATED

{pt=O aumento do número de estudantes de Inglês fez com que o uso de aplicações móveis para aprendizagem dessa língua se torne uma opção viável, acessível e largamente utilizada. Esta tese explora duas soluções diferentes para o treino da prosódia nestas aplicações. Ambos os métodos são desenvolvidos tendo em conta um exercício especifico de uma aplicação para aprender Inglês, em que o estudante tem acesso a uma frase e a uma gravação de um falante nativo de Inglês a ler essa frase. O estudante ouve a gravação e lê a frase, tentando replicar os contornos prosódicos da gravação que ouviu. A aplicação avalia a proximidade do discurso do estudante relativamente à gravação do falante nativo, tendo em conta marcadores de duração e frequência fundamental. A primeira abordagem consiste em manipular o discurso do utilizador. Usando a tentativa anterior do mesmo exercício, o algoritmo corrige os marcadores de duração e de frequência fundamental utilizando um sistema com tecnologia Vocoder e um algoritmo de alinhamento temporal. A segunda abordagem utiliza Conversão de Voz para converter a gravação do falante nativo para a voz do estudante. Ao remover as diferenças entre a voz do estudante e da referência, é expectável que processo de aprendizagem seja mais eficiente. Ambas as abordagens são implementadas, permitindo a obtenção de resultados que serão avaliados com recurso a um painel de 40 juízes. Um método de avaliação objectiva também será apresentado. Os resultados favorecem a abordagem com recurso a Conversão de Voz, que tem maior margem para melhorias., en=The increase in the number of English language learners has made using mobile apps to learn English a viable, accessible, and widely used option. This work explores two different approaches to tackle prosody training in such applications. Both methods are applied to an exercise from a language learning app, where the learner is given a sentence and a recording of a native speaker uttering this sentence. The learner then tries to read this sentence and replicate the prosodic targets from the native speaker utterance. The app returns feedback on how close the learner is to the target in terms of duration and pitch. The task will be complementing or replacing the utterance from the native speaker with an utterance in the voice of the learner. The first approach consists of manipulating the user’s speech. It will take the learner’s attempt and correct the pitch and duration markers through speech analysis with a vocoder-based system and a time alignment algorithm. The second approach uses a Voice Conversion method to convert the native speaker’s utterances to the voice of the learner. By removing the voice difference, it is expected that the learning process will be more efficient. Both approaches are implemented and preliminary results are provided. A subjective evaluation performed by a listening panel of 40 subjects is presented and a method for objective evaluation is proposed. The results reveal that the Voice Conversion approach seems the best choice for future development, given the VC algorithm is tailored for this specific task.}
{pt=Computer Assisted Language Learning (CALL), Treino de Prosódia, Conversão de Voz, Aprendizagem de Segunda Lı́ngua, Dynamic Time Warping, en=Computer Assisted Language Learning (CALL), Prosody Training, Voice Conversion (VC), L2 Learning, Dynamic Time Warping}

Janeiro 28, 2021, 11:30

Orientação

ORIENTADOR

Isabel Maria Martins Trancoso

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Professor Catedrático

ORIENTADOR

Xavier Anguera

ELSA

Doutorado