Dissertação

Movie Subtitles at the Service of Natural Language Processing EVALUATED

O aparecimento da world wide web permitiu a criação e distribuição de uma variedade de corpora extensa. Um exemplo de tal corpora são legendas de filmes e programas de TV usadas na área de processamento de linguagem natural para executar tarefas como análise estatística, agentes conversacionais, entre outras. No entanto, a maioria dos investigadores primeiro precisa de sujeitar as legendas aos seus próprios pré-processamentos para criar um corpus mais adequado aos requisitos das suas tarefas. B-Subtle é uma framework open source que inclui vários pré-processamentos para criar corpora de diálogo personalizada. Neste trabalho estendemos essa framework para incorporar pré-processamentos adicionais que consideram a existência de legendas duplicadas, a frequência de diálogos, bem como a presença de tópicos de conversa. O nosso objectivo é tentar ajudar os investigadores a evitar a implementação repetida de pré-processamento e reduzir o corpus a um tamanho administrável, exigindo menos poder computacional e capacidade de armazenamento, permanecendo customizado aos requisitos dos seus sistemas. Para além disso, neste trabalho também desenvolvemos de raíz a B-Subtle App, uma aplicação desktop multiplataforma que executa a B-Subtle framework em segundo plano e oferece análise estatística da corpora produzida na forma de um dashboard visual usando princípios e técnicas actuais na área de visualização de informação. O nosso objectivo seguinte é oferecer aos investigadores uma visualização que tente ajudar na avaliação iterativa da corpora produzida numa tentativa de criar corpora optimizada aos requisitos das suas tarefas, bem como possivelmente estender a utilização do B-subtle a entusiastas cinematográficos.
Legendas, Pré-processamento, Corpora de Diálogo, Análise Estatística, Dashboard

outubro 8, 2020, 14:30

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Maria Luísa Torres Ribeiro Marques da Silva Coheur

Departamento de Engenharia Informática (DEI)

Professor Associado

ORIENTADOR

Sandra Pereira Gama

Departamento de Engenharia Informática (DEI)

Colaborador Docente