Dissertação

{en_GB=TRIBUS: An end-to-end automatic speech recognition system in Portuguese } {} EVALUATED

{pt=Os sistemas end-to-end em tradução de fala para texto surgiram como modelos competitivos para os modelos tradicionais, baseados em HMMs. Contudo, a maioria dos sistemas end-to-end para tradução de fala para texto não são fáceis de reproduzir, maioritariamente porque é necessário dispor um grande conjunto de dados e poder computacional. Consequentemente, existem poucos resultados para línguas em que os dados são limitados, como por exemplo: Português Europeu. Neste trabalho vamos apresentar um conjunto de experiências feitas com o objetivo de criar os melhores sistemas end-to-end, em Português Europeu, com recurso a poucos dados. O sistema proposto, chamado TRIBUS, é um sistema híbrido que combina CTC e Attention. Os dados utilizados contêm fala lida, fala telefónica e fala de notícias. Para avaliarmos o sistema end-to-end, treinámos um modelo baseado em HMMs no mesmo conjunto de dados. Os resultados experimentais mostram que o modelo TRIBUS consegue obter um erro de caracter de 8.40%, no conjunto de teste do domínio de fala de noticiário, que é comparável com os 4.33%, obtidos pelo modelo base de comparação, no mesmo conjunto de teste. Para concluir, propusemos também um novo método para treinar sistemas CTC, através do auxílio de um mecanismo de memória. Este novo sistema funciona melhor do que apenas usar CTC., en=End-to-end automatic speech recognition (ASR) approaches have emerged as a competitive alternative to traditional HMM-based ASR systems. Unfortunately, most end-to-end ASR systems are not easily reproduced since they require vast amounts of data and computational resources that are only available for a reduced set of companies and labs worldwide. Consequently, the performance of these systems is not very well known for low resource languages to the best of our knowledge. European Portuguese is one of those languages. In this work, we present a set of experiments to train and assess some of the most current successful end-to-end ASR approaches for European Portuguese. The proposed system, named TRIBUS, is a hybrid CTC-attention end-to-end ASR combining data from three different domains: read speech, broadcast news and telephone speech. For comparison purposes, we also train a state-of-the-art HMM-based baseline on the same data. Experimental results show that TRIBUS achieves 8.40% character error rate (CER) on the broadcast news test set without the need of a language model, which is comparable to the strong baseline result, 4.33% CER, on the same set using an in-domain language model. We consider this result quite promising, especially for highly unpredictable vocabulary ASR applications. Finally, and more notably, a novel way of training CTC-based models using a memory-based approach, that performs better than only using CTC alone, was developed.}
{pt=tradução de som para texto, end-to-end, modelos híbridos com CTC e attention, poucos recursos, modelos baseados em memória, en=automatic speech recognition, end-to-end, hybrid CTC-attention, low resources, memory-based approaches}

janeiro 21, 2021, 14:30

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Luís Landeiro Ribeiro

PDMFC

CEO – Chief Executive Officer & CTO – Chief Technology Officer

ORIENTADOR

Alberto Abad Gareta

Departamento de Engenharia Informática (DEI)

Professor Auxiliar