Dissertação

TRIBUS: An end-to-end automatic speech recognition system in Portuguese EVALUATED

Os sistemas end-to-end em tradução de fala para texto surgiram como modelos competitivos para os modelos tradicionais, baseados em HMMs. Contudo, a maioria dos sistemas end-to-end para tradução de fala para texto não são fáceis de reproduzir, maioritariamente porque é necessário dispor um grande conjunto de dados e poder computacional. Consequentemente, existem poucos resultados para línguas em que os dados são limitados, como por exemplo: Português Europeu. Neste trabalho vamos apresentar um conjunto de experiências feitas com o objetivo de criar os melhores sistemas end-to-end, em Português Europeu, com recurso a poucos dados. O sistema proposto, chamado TRIBUS, é um sistema híbrido que combina CTC e Attention. Os dados utilizados contêm fala lida, fala telefónica e fala de notícias. Para avaliarmos o sistema end-to-end, treinámos um modelo baseado em HMMs no mesmo conjunto de dados. Os resultados experimentais mostram que o modelo TRIBUS consegue obter um erro de caracter de 8.40%, no conjunto de teste do domínio de fala de noticiário, que é comparável com os 4.33%, obtidos pelo modelo base de comparação, no mesmo conjunto de teste. Para concluir, propusemos também um novo método para treinar sistemas CTC, através do auxílio de um mecanismo de memória. Este novo sistema funciona melhor do que apenas usar CTC.
tradução de som para texto, end-to-end, modelos híbridos com CTC e attention, poucos recursos, modelos baseados em memória

janeiro 21, 2021, 14:30

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Luís Landeiro Ribeiro

PDMFC

CEO – Chief Executive Officer & CTO – Chief Technology Officer

ORIENTADOR

Alberto Abad Gareta

Departamento de Engenharia Informática (DEI)

Professor Auxiliar