Dissertação

GERC: Multilingual Grammatical Error Correction for the Informal Writer EVALUATED

Os humanos cometem bastantes erros quando escrevem online. Clientes de apoio ao cliente a necessitar de assistência, ainda mais. Isto é ainda mais notável quando as empresas de apoio ao cliente utilizam sistemas de tradução automática. Os atuais sistemas de Correção de Erros Gramaticais (CEG) são maioritariamente desenvolvidos para um tom formal. Estes sistemas têm um comportamento subótimo quando utilizados no registo informal, geralmente adotado por nativos, utilizado para apoio ao cliente. Estas ferramentas publicamente disponíveis são maioritariamente desenvolvidas apenas para Inglês. Nesta tese, criamos um sistema de correção de erros gramaticais multilíngue para o domínio do apoio ao cliente. Para efetuar a adaptação para este novo domínio, utilizámos um novo dataset da Unbabel e aplicámos técnicas de aumento de dados. Utilizámos ainda os nossos sistemas de CEG multilíngue como um passo de pré-processamento para tradução automática, melhorando a qualidade das traduções. Como um objetivo adicional, desenvolvemos um novo sistema estado da arte de re-ordenação de hipóteses de CEG, que melhorou os resultados dos modelos T5-small e T5-base propostos por Rothe et al. (2021), que é atualmente a abordagem com resultados mais elevados para esta tarefa. Este reordenador é, no nosso conhecimento, o primeiro sistema de estimativa de qualidade ao nível da palavra utilizado para gerar uma pontuação ao nível da frase, bem como o primeiro reordenador e sistema de estimativa de qualidade multilingue desenvolvido para CEG. Este é também o primeiro modelo estimador de qualidade e reordenador para um outro domínio que não o de aprendizes de segunda língua.
Correção de Erros Gramaticais, Multilíngue, Aprendizagem Profunda, Tradução Automática, Aumento de Dados

novembro 18, 2022, 8:30

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Amin Farajian

Unbabel

Investigador

ORIENTADOR

André Filipe Torres Martins

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Professor Associado