Dissertação

{en=Criação de Léxicos Bilingues para Tradução Automática Estatística } {} EVALUATED

{pt=O sistema oferece uma framework para detecção de cognatas entre diferente línguas. A framework centra-se em medidas de similaridade entre palavras e regras de transliteração. A detecção de cognatas foi feita em duas fases: preprocessamento e clssificação. A fase de preprocessamento apenas usou um subconjunto das medidas de similaridade por forma a descartar pares de palavras que não partilhavam qualquer semelhança. As medidas foram Word Length, Lcsm, Lcsr, Jaro Winkler e Sequence Letters. Os pares resultantes foram então aproveitados para a primeira fase de classificação: trieno. O trieno permitiu gerar um model baseado nas medidas de similaridade. Este model é utilizado para prever se um determinado certas de palavras são cognatas. De todas as medidas de similaridade, apenas são usadas 5: Soundex, Levenshtein, Jaccard, Lcsm e Lcsr. A partir destas medidas, o modulo de cognatas atingiu uma F-measure de 62.83%. Após a construção da framework, esta foi usada para detecção de traduções de entidades mencionadas. Este segundo módulo usou três reconhecedores de entidades mencionadas: Stanford NER para nomes escritos na língua inglesa, XIP NER e um método adaptativo para nomes em português. Dois métodos foram utilizados: o primeiro usou o Stansford NER com o XIP NER. O segundo utilizou o Stanford NER mais o método adaptativo. O primeiro alcançou F-measure de 62.65%, enquanto que o segundo método revelou-se mais eficiente tendo atingido F-measure de 73.91%., en=The system provides a framework for detection of cognates across different languages. It is centered in word similarity measures and transliteration rules. Cognate detection was accomplished in two phases: preprocessing and classification. The preprocessing phase used only a subset of the whole set of similarity measures in order to discard pairs of words that did not share any resemblance. The measures used were Word Length, Lcsm, Lcsr, Jaro Winkler and Sequence Letters. Furthermore, the resulting pairs were used in the first step of classification: training. Training permitted to generate a model based on similarity measures. This model is further used to predict whether words are cognates. From the whole set of similarity measures, the model used only five: Soundex, Levenshtein, Jaccard, Lcsm and Lcsr. From these measures, the cognate module produced a F-measure rate of 62.83 %. After the framework was built, it was used to detect translations of named entities. This module used three named entity recognizers: Stanford NER for English names, XIP NER and an Adaptive Method to acquire Portuguese named entities. Two approaches were used: first Stanford NER was used plus the XIP NER. The second approach consisted in the use of the Stanford NER against the Adaptive Method. The first approach had F-measure rate of 62.65 %, whilst the second one was more efficient, 73.91% of F-measure rate. }
{pt=corpora comparável, cognatas, tradução, entidades mencionadas, en=comparable corpora, cognates, translation, named entities}

Outubro 20, 2010, 14:0

Publicação

Obra sujeita a Direitos de Autor

Orientação

CO-ORIENTADOR

Isabel Maria Martins Trancoso

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Professor Catedrático

ORIENTADOR

Maria Luísa Torres Ribeiro Marques da Silva Coheur

Departamento de Engenharia Informática (DEI)

Professor Auxiliar