FenixEdu™

Dissertação

Movie Subtitles at the Service of Natural Language Processing EVALUATED

Detalhes: O aparecimento da world wide web permitiu a criação e distribuição de uma variedade de corpora extensa. Um exemplo de tal corpora são legendas de filmes e programas de TV usadas na área de processamento de linguagem natural para executar tarefas como análise estatística, agentes conversacionais, entre outras. No entanto, a maioria dos investigadores primeiro precisa de sujeitar as legendas aos seus próprios pré-processamentos para criar um corpus mais adequado aos requisitos das suas tarefas. B-Subtle é uma framework open source que inclui vários pré-processamentos para criar corpora de diálogo personalizada. Neste trabalho estendemos essa framework para incorporar pré-processamentos adicionais que consideram a existência de legendas duplicadas, a frequência de diálogos, bem como a presença de tópicos de conversa. O nosso objectivo é tentar ajudar os investigadores a evitar a implementação repetida de pré-processamento e reduzir o corpus a um tamanho administrável, exigindo menos poder computacional e capacidade de armazenamento, permanecendo customizado aos requisitos dos seus sistemas. Para além disso, neste trabalho também desenvolvemos de raíz a B-Subtle App, uma aplicação desktop multiplataforma que executa a B-Subtle framework em segundo plano e oferece análise estatística da corpora produzida na forma de um dashboard visual usando princípios e técnicas actuais na área de visualização de informação. O nosso objectivo seguinte é oferecer aos investigadores uma visualização que tente ajudar na avaliação iterativa da corpora produzida numa tentativa de criar corpora optimizada aos requisitos das suas tarefas, bem como possivelmente estender a utilização do B-subtle a entusiastas cinematográficos.
Keywords: Legendas, Pré-processamento, Corpora de Diálogo, Análise Estatística, Dashboard

Discussão: outubro 8, 2020, 14:30