Dissertação

Factored Models for Neural Machine Translation EVALUATED

Com a globalização, tornou-se cada vez mais importante traduzir texto com elevada qualidade. Ultimamente, a Tradução Automática Neuronal (TAN) tem sido a principal solução escolhida para suprir esta necessidade. Dentro da vasta pesquisa feita nesta área, formas inovadoras de representar os dados têm sido estudadas, numa tentativa de enriquecer a informação contida na representação de cada palavra. Uma delas são os fatores, um mecanismo através do qual as palavras, ao invés de serem representadas apenas por elas próprias, são definidas por um conjunto de características. No presente trabalho, testamos e avaliamos a usabilidade do código referente aos fatores no Marian, uma ferramenta open-source para TAN. Mostramos o impacto que usar fatores tem na qualidade das traduções e no desempenho desta ferramenta em termos de velocidade de treino e de inferência. Para além disso, contribuímos para o código base desta ferramenta através da implementação da concatenação como um possível método para combinar as representações (embeddings) das palavras e dos fatores. Realizamos três experiências nas quais usamos fatores para três diferentes aplicações, e mostramos como isso melhorou a qualidade das traduções dos sistemas de TAN. Usamo-los para injectar terminologia em tempo de execução, e mostramos como combinar as representações das palavras e fatores através da concatenação é a melhor opção. Usamo-los para representar divisões em subpalavras, comparando dois métodos previamente propostos para o efeito. Finalmente, usamo-los para codificar informação sobre morfologia, numa tentativa de melhorar a qualidade da tradução de linguagens morfologicamente ricas, obtendo resultados promissores para o par de linguagens Inglês-Romeno.
aprendizagem profunda, processamento de linguagem natural, tradução automática neural, tradução automática neural fatorizada

janeiro 26, 2021, 9:0

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Christine Anne Maroti

Unbabel

Especialista

ORIENTADOR

André Filipe Torres Martins

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Professor Associado