Dissertação

{en_GB=Improving the Quality of Neural Machine Translation} {} EVALUATED

{pt=Avanços recentes levaram a que a tradução automática neural se tornasse a principal abordagem ao problema de tradução automática. Ainda assim, apesar dos modelos actuais produzirem traduções fluentes, estas nem sempre são adequadas, prejudicando a sua qualidade. Nesta dissertação abordamos duas possíveis causas de traduções não adequadas: má cobertura das palavras durante a tradução, o que pode levar a repetições e a que palavras não sejam traduzidas; existência de palavras raras e frases fora de um certo domínio. De modo a reduzir os problemas de cobertura propomos um modelo baseado na fertilidade das palavras, juntando este conceito a funções de transformação esparsas e restritas do mecanismo de atenção. São ainda apresentadas duas métricas automáticas com o intuito de avaliar os problemas de sobre e sub-tradução de palavras da frase original. Quanto aos problemas de palavras raras e desajuste de domínio, seguimos uma abordagem existente na literatura que usa o conceito de unidade de tradução para guiar a parte de descodificação dos modelos de tradução automática neural. Este modelo é melhorado, introduzindo correções para problemas identificados, e aplicado ao problema de adaptação de domínio, algo que não tinha sido tentando até agora. Por fim, avaliamos empiricamente os métodos propostos em três pares de linguagens e apresentamos uma análise extensa de erros, tornando possível compreender os pontos fortes e fracos de cada método e como melhorá-los no futuro., en=Over the last few years, neural machine translation has become the major approach to the problem of automatic translation. Nonetheless, even though current models are able to output fluent translations, they often lack adequacy. In this thesis we target adequacy issues with two different causes: poor coverage of source words during translation, which lead to unnecessary repetitions and erroneously untranslated words; rare words and out-of-domain sentences. In order to mitigate coverage issues we propose a fertility-based approach to neural machine translation, which couples the concept of fertility with sparse and constrained attention transformations. Furthermore, we present two machine translation metrics that allow us to understand how much the problems of over and under-translations are affecting the model. To deal with rare words and out-of-domain sentences, we implement an existing approach in the literature, that makes use of the concept of translation pieces to guide the decoding step of NMT models. We further extend this method by solving some identified issues, and by applying it to the problem of domain adaptation, something which had not been done in the past. Finally, we provide an empirical evaluation in three language pairs, presenting an extensive error analysis. This makes it possible to understand the strengths and weaknesses of each of the models, and how they may be improved in the future.}
{pt=Aprendizagem profunda, processamento de língua natural, tradução automática neural, funções de transformação de atenção, adaptação de domínio, en=Deep learning, natural language processing, neural machine translation, attention transformations, domain adaptation}

Novembro 12, 2018, 10:0

Orientação

ORIENTADOR

André Filipe Torres Martins

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Prof Auxiliar Convidado