FenixEdu™

Dissertação

{en_GB=Cinema at the service of Natural Language Processing} {} EVALUATED

Detalhes: {pt=Na área do Processamento de Língua Natural muitos sistemas requerem a existência de dados de treino para que possam melhorar os seus resultados. Tipicamente, aumentar a quantidade de dados de treino num sistema de Processamento de Língua Natural leva a uma grande melhoria dos resultados do sistema. Mas, por vezes, pode ser difícil encontrar corpora adequados a treinos. As legendas são um recurso de muita importância, pois é gratuito e existe em grandes quantidades, para quase todas as linguagens e pode ser utilizado para obter corpora paralelos. Utilizando diferentes legendas para um mesmo filme, podemos extrair informação muito útil. Neste trabalho, exploramos o potencial das legendas de filmes para produzir corpora paralelos alinhados e, assim, extrair informação deles. Isto é feito alinhando correctamente as legendas, através da combinação de técnicas do estado-da-arte que utilizam, não só a informação temporal contida nos ficheiros de legenda, como também a semelhança textual entre frases. Isto representa uma forma de produzir corpora paralelos alinhados que podem ser utilizados em sistemas de tradução automática, devido às características dos diálogos de filmes. Além do alinhador de legendas, contribuímos com a criação de um dataset de legendas de filmes e de alinhamentos de referência que podem ser utilizados para avaliar qualquer alinhador de legendas. Utilizando este dataset e alinhamentos de referência, verificámos que o alinhador de legendas desenvolvido melhora resultados do estado-da-arte., en=In the Natural Language Processing area, many systems require the existence of training data in order to improve their results. Typically, increasing the training data amount in a Natural Language Processing system leads to a great improvement on system performance. But, sometimes it can be difficult to find adequate corpora for training purposes. Movie subtitles are a very important resource that is available for free and in large amounts for almost every language and can be used to obtain parallel corpora. Using different movie subtitle files for the same movie, we can extract useful information. In this work, we explore the potential of movie subtitles to produce aligned parallel corpora and extract information from them. This is done by correctly aligning the subtitle files, through the combination of state-of-the-art techniques that use not only the timing information present in subtitle files, but also the textual similarity between sentences. This represents a way of producing aligned parallel corpora that can be used in Machine Translation systems, due to the characteristics of movie dialogs. Besides the subtitle aligner, we have contributed with the creation of a subtitle dataset and reference alignments that can be used to evaluate any subtitle aligner. Using the created dataset and reference alignments, we have observed that the developed subtitle aligner successfully improves state-of-the-art results. }
Keywords: {pt=Legendas de filmes, Alinhamento de legendas, Extração de informação, Construção de corpora paralelos, Dados de treino, Alinhamentos de referência, en=Movie subtitles, Subtitle alignment, Information extraction, Building parallel corpora, Training data, Reference alignments}

Discussão: maio 25, 2016, 14:30