FenixEdu™

Dissertação

One million agents speaking all the languages in the World EVALUATED

Detalhes: Atualmente, a criação de um agente de conversação para um domínio específico é uma tarefa acessível. Contudo, os agentes resultantes têm uma base de conhecimentos restrita devido ao esforço humano necessário para introduzir manualmente os dados. Legendas de filmes e de programas de TV estão disponíveis gratuitamente em bancos de dados em constante crescimento. Eles constituem um recurso notável de dados distribuídos em mais de 70 idiomas. Neste documento, apresentamos o B-Subtle - uma nova ferramenta para criação automática de corpora de interações pergunta/resposta e de extração de dados estatísticos a partir de legendas. Sendo que utilizadores diferentes podem ter necessidades distintas, o nosso objetivo é fornecer um sistema flexível que possa ser totalmente parametrizado por meio de um ficheiro de configuração. Os corpora gerados servirão como bases de conhecimento para agentes de conversação. Além da ferramenta de geração de corpora, outro sistema será apresentado - Say Something Deep. Este sistema é capaz de responder a perguntas feitas por utilizadores. Este sistema utilizará uma estratégia de geração de respostas após treinar modelos com arquiteturas de redes neuronais.
Keywords: Sistemas de Diálogo, Legendas de filmes, Extração de Informação, Modelos Gerativos, Aprendizagem Profunda

Discussão: junho 7, 2018, 9:0