Dissertação

Cinema at the service of Natural Language Processing EVALUATED

Na área do Processamento de Língua Natural muitos sistemas requerem a existência de dados de treino para que possam melhorar os seus resultados. Tipicamente, aumentar a quantidade de dados de treino num sistema de Processamento de Língua Natural leva a uma grande melhoria dos resultados do sistema. Mas, por vezes, pode ser difícil encontrar corpora adequados a treinos. As legendas são um recurso de muita importância, pois é gratuito e existe em grandes quantidades, para quase todas as linguagens e pode ser utilizado para obter corpora paralelos. Utilizando diferentes legendas para um mesmo filme, podemos extrair informação muito útil. Neste trabalho, exploramos o potencial das legendas de filmes para produzir corpora paralelos alinhados e, assim, extrair informação deles. Isto é feito alinhando correctamente as legendas, através da combinação de técnicas do estado-da-arte que utilizam, não só a informação temporal contida nos ficheiros de legenda, como também a semelhança textual entre frases. Isto representa uma forma de produzir corpora paralelos alinhados que podem ser utilizados em sistemas de tradução automática, devido às características dos diálogos de filmes. Além do alinhador de legendas, contribuímos com a criação de um dataset de legendas de filmes e de alinhamentos de referência que podem ser utilizados para avaliar qualquer alinhador de legendas. Utilizando este dataset e alinhamentos de referência, verificámos que o alinhador de legendas desenvolvido melhora resultados do estado-da-arte.
Legendas de filmes, Alinhamento de legendas, Extração de informação, Construção de corpora paralelos, Dados de treino, Alinhamentos de referência

Maio 25, 2016, 14:30

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

David Manuel Martins de Matos

Departamento de Engenharia Informática (DEI)

Professor Auxiliar

ORIENTADOR

Maria Luísa Torres Ribeiro Marques da Silva Coheur

Departamento de Engenharia Informática (DEI)

Professor Auxiliar