Dissertação
GERC: Multilingual Grammatical Error Correction for the Informal Writer EVALUATED
Os humanos cometem bastantes erros quando escrevem online. Clientes de apoio ao cliente a necessitar de assistência, ainda mais. Isto é ainda mais notável quando as empresas de apoio ao cliente utilizam sistemas de tradução automática. Os atuais sistemas de Correção de Erros Gramaticais (CEG) são maioritariamente desenvolvidos para um tom formal. Estes sistemas têm um comportamento subótimo quando utilizados no registo informal, geralmente adotado por nativos, utilizado para apoio ao cliente. Estas ferramentas publicamente disponíveis são maioritariamente desenvolvidas apenas para Inglês. Nesta tese, criamos um sistema de correção de erros gramaticais multilíngue para o domínio do apoio ao cliente. Para efetuar a adaptação para este novo domínio, utilizámos um novo dataset da Unbabel e aplicámos técnicas de aumento de dados. Utilizámos ainda os nossos sistemas de CEG multilíngue como um passo de pré-processamento para tradução automática, melhorando a qualidade das traduções. Como um objetivo adicional, desenvolvemos um novo sistema estado da arte de re-ordenação de hipóteses de CEG, que melhorou os resultados dos modelos T5-small e T5-base propostos por Rothe et al. (2021), que é atualmente a abordagem com resultados mais elevados para esta tarefa. Este reordenador é, no nosso conhecimento, o primeiro sistema de estimativa de qualidade ao nível da palavra utilizado para gerar uma pontuação ao nível da frase, bem como o primeiro reordenador e sistema de estimativa de qualidade multilingue desenvolvido para CEG. Este é também o primeiro modelo estimador de qualidade e reordenador para um outro domínio que não o de aprendizes de segunda língua.
novembro 18, 2022, 8:30
Publicação
Obra sujeita a Direitos de Autor
Orientação
ORIENTADOR
Departamento de Engenharia Electrotécnica e de Computadores (DEEC)
Professor Associado