Dissertação

{pt_PT=Glass-Box Quality Estimation for Neural Machine Translation} {} EVALUATED

{pt=A Estimação de Qualidade de Tradução tem-se tornado cada vez mais relevante nos últimos anos para o desenvolvimento de aplicações de Tradução Automática prácticas, com avanços recentes no campo de Processamento de Linguagem Natural a desbloquear novas abordagens à tarefa. Apesar das grandes melhorias que os sistemas de Estimação de Qualidade mais avançados demonstram, a maior parte negligencia uma fonte de informação promissora: o sistema de tradução sob avaliação é tratado como uma caixa negra, e apenas o seu input e output são considerados. Nesta tese, introduzimos um método que integra informação extraída dos mecanismos internos de modelos de Tradução Automática, no processo de treino de modelos de Estimação de Qualidade - ao qual chamamos Estimação de Qualidade de Caixa de Vidro. Primeiro, com o objectivo de extrair esta informação interna, aproveitamos métodos de quantificação de incerteza existentes baseados em Monte Carlo dropout, os quais publicações recentes demonstraram levar à criação de representações relevantes à estimação de qualidade de traduções automáticas. Depois, propomos uma arquitectura de modelo original baseada no Predictor-Estimator, acompanhada de um método que permite integrar as representações extraídas no processo de treino deste mesmo modelo. Finalmente, realizamos uma análise empírica, baseada em seis pares de linguagens no contexto da WMT Quality Estimation Shared Task, com resultados animadores. A análise do modelo proposto que levamos a cabo sugere várias direções para exploração e melhorias no futuro., en= Quality Estimation has become increasingly relevant in the last few years for practical and confidence-aware Machine Translation applications, with recent advancements in the field of Natural Language Processing having enabled new approaches to the task. Despite the great improvements that state-of-the-art Quality Estimation systems boast, most overlook a promising source of information: the translation system under evaluation is treated as a black box, with only its input and output being regarded. In this thesis, we introduce a method which allows for the integration of information extracted from the internal mechanisms of Machine Translation models, into the training process of Quality Estimation models, which we call Glass-Box Quality Estimation. First, in order to extract this internal information, we leverage existing model uncertainty quantification methods based on Monte Carlo dropout, which recent work has shown to yield features highly relevant to estimating the quality of machine translated text. We then propose a novel model architecture based on the Predictor-Estimator framework, and an accompanying method to integrate the extracted features into the model's training procedure. Finally, we provide an empirical evaluation based on six language pairs in the context of the WMT Quality Estimation Shared Task, with encouraging results. Our analysis of the proposed model suggests various directions for future improvements.}
{pt=Aprendizagem Profunda, Processamento de Linguagem Natural, Estimação de Qualidade, Quantificação de Incerteza, en=Deep Learning, Natural Language Processing, Quality Estimation, Uncertainty Quantification}

outubro 1, 2021, 8:0

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

André Filipe Torres Martins

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Professor Associado

ORIENTADOR

João Miguel Da Costa Sousa

Departamento de Engenharia Mecânica (DEM)

Professor Catedrático