Dissertação

{pt= Statistical Machine Translation - The problem of Unknown Words} {} EVALUATED

{pt=Desenvolver sistemas que traduzem palavras com a mesma exatidão que humanos não é uma tarefa fácil. Sistemas de Tradução Automática Estatística baseiam-se no treino de data. Logo, quando traduzem um documento, certas palavras do documento podem não ter sido encontradas na fase de treino e, por conseguinte, o sistema não sabe como as traduzir. O objectivo deste trabalho é desenvolver um sistema que encontra possíveis traduções destas palavras desconhecidas. Dado que palavras em línguas com a mesma origem têm antepassados em comum, muitas destas palavras têm semelhanças que podem ser úteis para descobrir se estas são ou não tradução uma da outra, tais palavras são denominadas cognatas. Por esse motivo, exploramos semelhanças na ortografia de palavras para encontrar traduções. Neste sistema, também fazemos uso de Analogias, tentando inferir a tradução de palavras através da tradução de palavras relacionadas com ela. O último método testado usa o contexto em que cada palavra está inserida para calcular o quão similares são duas palavras. Ao juntar estes módulos, tentamos maximizar o número de palavras desconhecidas traduzidas. A nossa abordagem é testada na tradução de corpora de Português para Inglês (e vice-versa)., en=Developing systems that translate words as accurately as humans is not an easy task. Statistical Machine Translation systems base themselves on training data. So, when translating a document, some of the words in that document might not have been encountered in the training phase and, thus, the system does not know how to translate these words. The objective of this work is to develop a system that finds possible translations of these unknown words. Since words from closely related languages have common ancestors, many of these words will end up having similarities that can help us in discovering if they are possible translations of each other or not, these words are named cognate words. Therefore, we explore orthographic similarities between words to find translations. We also make use of Logical Analogy, by attempting to infer the translation of the unknown word by looking at the translations of words related to it. Our final method tested uses the context in which each word is inserted to calculate how similar two words are. By merging these systems, we try to maximize the number of unknown words translated. Our approach is tested in the translation of corpora from Portuguese to English (and vice-versa).}
{pt=Tradução Automática Estatística, Palavras Desconhecidas, Cognatas, Analogia, Contexto, en=Statistical Machine Translation, Unknown Words, Cognates, Analogy, Context}

Maio 30, 2012, 9:30

Publicação

Obra sujeita a Direitos de Autor

Orientação

CO-ORIENTADOR

Isabel Maria Martins Trancoso

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Professor Catedrático

ORIENTADOR

Maria Luísa Torres Ribeiro Marques da Silva Coheur

Departamento de Engenharia Informática (DEI)

Professor Auxiliar