Dissertação

{en_GB=One million agents speaking all the languages in the World} {} EVALUATED

{pt=Atualmente, a criação de um agente de conversação para um domínio específico é uma tarefa acessível. Contudo, os agentes resultantes têm uma base de conhecimentos restrita devido ao esforço humano necessário para introduzir manualmente os dados. Legendas de filmes e de programas de TV estão disponíveis gratuitamente em bancos de dados em constante crescimento. Eles constituem um recurso notável de dados distribuídos em mais de 70 idiomas. Neste documento, apresentamos o B-Subtle - uma nova ferramenta para criação automática de corpora de interações pergunta/resposta e de extração de dados estatísticos a partir de legendas. Sendo que utilizadores diferentes podem ter necessidades distintas, o nosso objetivo é fornecer um sistema flexível que possa ser totalmente parametrizado por meio de um ficheiro de configuração. Os corpora gerados servirão como bases de conhecimento para agentes de conversação. Além da ferramenta de geração de corpora, outro sistema será apresentado - Say Something Deep. Este sistema é capaz de responder a perguntas feitas por utilizadores. Este sistema utilizará uma estratégia de geração de respostas após treinar modelos com arquiteturas de redes neuronais., en=Currently, creating a conversational agent for a specific domain is an accessible task but the resulting agents have restricted knowledge due to the human effort needed to manually introduce the data. Movie and TV shows subtitles are available for free in ever-growing databases. They constitute a remarkable resource of data distributed across more than 70 languages. In this document, we propose B-Subtle - a novel tool for automatic creation of corpora and collection of analytical data from subtitles. Since different users might have different needs, we aim to provide a flexible system that can be fully parametrized through a configuration file. The generated corpora will serve as a knowledge base for conversational agents. Besides the corpora generation tool, another system will be described - Say Something Deep. This system is capable of creating sequence-to-sequence models to answer questions made by its users. It relies on neural networks to implement a generative approach by taking corpora generated with B-Subtle as its knowledge base.}
{pt=Sistemas de Diálogo, Legendas de filmes, Extração de Informação, Modelos Gerativos, Aprendizagem Profunda, en=Dialogue Systems, Movie Subtitles, Information Extraction, Generative Models, Deep Learning}

junho 7, 2018, 9:0

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Maria Luísa Torres Ribeiro Marques da Silva Coheur

Departamento de Engenharia Informática (DEI)

Professor Auxiliar