FenixEdu™

Dissertação

{en_GB=Movie Subtitles at the Service of Natural Language Processing} {} EVALUATED

Detalhes: {pt=O aparecimento da world wide web permitiu a criação e distribuição de uma variedade de corpora extensa. Um exemplo de tal corpora são legendas de filmes e programas de TV usadas na área de processamento de linguagem natural para executar tarefas como análise estatística, agentes conversacionais, entre outras. No entanto, a maioria dos investigadores primeiro precisa de sujeitar as legendas aos seus próprios pré-processamentos para criar um corpus mais adequado aos requisitos das suas tarefas. B-Subtle é uma framework open source que inclui vários pré-processamentos para criar corpora de diálogo personalizada. Neste trabalho estendemos essa framework para incorporar pré-processamentos adicionais que consideram a existência de legendas duplicadas, a frequência de diálogos, bem como a presença de tópicos de conversa. O nosso objectivo é tentar ajudar os investigadores a evitar a implementação repetida de pré-processamento e reduzir o corpus a um tamanho administrável, exigindo menos poder computacional e capacidade de armazenamento, permanecendo customizado aos requisitos dos seus sistemas. Para além disso, neste trabalho também desenvolvemos de raíz a B-Subtle App, uma aplicação desktop multiplataforma que executa a B-Subtle framework em segundo plano e oferece análise estatística da corpora produzida na forma de um dashboard visual usando princípios e técnicas actuais na área de visualização de informação. O nosso objectivo seguinte é oferecer aos investigadores uma visualização que tente ajudar na avaliação iterativa da corpora produzida numa tentativa de criar corpora optimizada aos requisitos das suas tarefas, bem como possivelmente estender a utilização do B-subtle a entusiastas cinematográficos., en=The appearance of the world wide web allowed the creation and distribution of various extensive corpora. One such corpora are movie and TV show subtitles used in natural language processing to perform tasks such as statistical analysis, conversational agents, among others. However, majority of researchers first need to subject the subtitles to their own preprocessing steps to create a corpus suitable to their task requirements. B-Subtle is an open source framework including various preprocessing steps to build personalized dialogue corpora. In this work we have extended that framework to incorporate additional preprocessing steps considering the existence of subtitle duplicates, the frequency of dialogue turns and the presence of conversation topics. Our goal is to potentially help researchers avoid having to repeatedly implement preprocessing steps and to reduce their corpus to a more manageable size, requiring less computational power and storage capacity, while still being tailored to their system requirements. Furthermore, in this work we also developed from scratch B-Subtle App, a cross-platform desktop application executing the B-Subtle framework in the background and offering statistical analysis of the produced corpora in the form of a visual dashboard using state-of-the-art techniques in the field of information visualization. Our subsequent goals are to offer researchers a visualization that can potentially help in the incremental process of discovering the optimal sequence of preprocessing steps according to their task requirements through the iterative evaluation of the produced corpora and to attempt extending the usage of B-Subtle to a broader audience additionally including cinematographic enthusiasts.}
Keywords: {pt=Legendas, Pré-processamento, Corpora de Diálogo, Análise Estatística, Dashboard, en=Subtitles, Preprocessing, Dialogue Corpora, Statistical Analysis, Visual Dashboard}

Discussão: outubro 8, 2020, 14:30