FenixEdu™

Dissertação

{pt_PT=Domain-Adapted Multilingual Neural Machine Translation} {} EVALUATED

Detalhes: {pt=A Europa é um continente de diversidade linguística: A União Europeia tem atualmente 24 línguas oficiais. A globalização aumentou a necessidade de ter informação traduzida num maior número de línguas possíveis, o mais rápido possível. A tradução automática, e em particular a tradução automática neural, pode ser uma boa abordagem a este problema. A tradução automática neural proporciona condições ideias para o desenvolvimento de sistemas multilingue: torna possível a partilha de componentes para diferentes tarefas. Sistemas multilingue tornam possível o uso de um único modelo capaz de traduzir entre múltiplas línguas tanto na origem como no alvo. De modo a melhorar a performance dos sistemas que suportam múltiplas línguas, implementámos uma abordagem existente na literatura: adapters. Adapters são pequenas camadas residuais que são introduzidas no meio de modelos pré-treinados, que são usadas para adaptar o modelo para novas línguas, melhorando a sua performance. Procuramos melhorar este método introduzindo adapters que são condicionados em apenas uma língua (ao contrário da abordagem atual que condiciona num par de línguas). Fazendo esta mudança, torna-se possível extrair o potencial dos adapters para melhorar a performance, mesmo em cenários em que não existe informação paralela disponível. Por fim, avaliamos empiricamente e comparamos a performance de sistemas que suportam múltiplas línguas e sistemas que recorrem a uma língua pivô em 24x23 pares de línguas. Inglês é a escolha habitual como língua pivô, mas nós procuramos estudar o uso de línguas pivô diferentes: Francẽs e Alemão, para transduzir entre línguas românicas e germânicas, respetivamente., en=Europe is a continent of linguistic diversity: the European Union has 24 official languages. Globalization has increased the necessity of having information translated to many languages as possible, as fast as possible. Automatic translation, and in particular neural machine translation, can be a good solution to solve this problem. Neural machine translation provides an ideal setting for multilingual systems: it makes it possible to share components across multiple tasks. Multilingual systems make it possible to have a single model that translates from multiple source languages into multiple target languages. While multilingual systems are appealing, the current reported performance is still behind that of dedicated bilingual models, for most language-pairs. To improve the performance of multilingual systems, we implement an existing approach in the literature, adapters. Adapters are tiny residual layers introduced in the middle of a pre-trained model that are used to adapt the model to a new language, improving its performance. We extend this method by conditioning adapters on one language only (as opposed to the language-pair setting initially proposed). By doing this, we are able to perform direct zero-shot translation and to improve the results in this scenario too. Finally, we provide a thorough empirical analysis and comparison of different multilingual and pivot-based systems on 24×23 language-pairs. While English is the usual choice of pivot language, we also study the use of different pivot languages, French and German, to translate between Romance and Germanic languages, respectively.}
Keywords: {pt=aprendizagem profunda, processamento de língua natural, tradução automática neural, en=deep learning, natural language processing, neural machine translation}

Discussão: janeiro 25, 2021, 9:0