Dissertação

{en_GB=Natural Language Generation for Open Domain Human-Robot Interaction} {} EVALUATED

{pt=A comunicação verbal desempenha um papel muito importante na interação homem-homem. Assim, potencialmente também o desempenha na interação homem-máquina, especialmente sem restrições de domínio. Neste trabalho, abordamos um dos principais componentes dos sistemas de diálogo, geração da língua natural, para estudar como a comunicação de domínio aberto o afecta. Usamos métodos estatísticos, nomeadamente modelos de tópicos e aprendizagem profunda, e abordamos a arquitetura tradicional de geração optimizando o planeamento de frases e realização de superfície, como tarefas diferentes. Utilizamos legendas de documentários para modelar aspectos específicos de domínio e um conjunto de dados com um vocabulário grande para modelar as preocupações linguísticas independentes do domínio. Usamos a Alocação Latente de Dirichlet para descrever as relações finas do domínio e para o vocabulário grande usamos uma representação de "word embeddings" (providencia relações geométricas com semântica). Ambas as tarefas são modeladas usando aprendizagem profunda. Especificamente, o planeador de frases é implementado com redes neuronais feedforward e convolucionais. O microplaneamento e a realização são implementados com redes neuronais recorrentes, que modelam aspectos sequenciais da língua. Avaliamos o nosso método de construção de corpus através da detecção de diferentes segmentos de cenas e como esses parâmetros afectam a construção dos modelos de tópicos. Avaliamos o planeador de frases usando a similaridade de coseno e a realização de superfície com análise subjetiva. Os resultados sugerem que o planeador de frases aprende a mapear um espaço independente do domínio para um espaço específico de domínio. A qualidade dos resultados da realização deve ser considerada preliminar., en=Verbal communication plays a very important role in human-human interaction. It has the potential to also play a very important role in human-machine interaction, especially if it is not restricted to a single domain. In this work, we approach one of the key components of dialogue systems, natural language generation, to study how this component is affected by open domain communication. We rely on statistical methods, namely topic models and deep learning, and approach the traditional generation architecture by optimising the sentence planning and surface realisation, as different tasks. We use documentaries' subtitles to model domain-specific aspects and a large vocabulary dataset to account for domain-independent linguistic concerns. Latent Dirichlet Allocation is used for describing the fine-grained relationships in the domain-specific corpus, while word embeddings (providing geometric semantic relations) are used to represent the large vocabulary. Natural language generation tasks are modelled as deep learning problems. Specifically, sentence planning is implemented with feedforward and convolutional neural networks. Microplanning and surface realisation are implemented with recurrent neural networks, to account for sequential aspects of language. We evaluate our corpus construction method by analysing different time boundaries in the scene detection algorithm and how those parameters affects the topic models. We evaluate sentence planning using cosine similarity and surface realisation with subjective analysis. Our results suggest that the sentence planner can learn a mapping from the generic domain-independent space into the domain-specific space. The quality of surface realisation results must be considered preliminary.}
{pt=Geração Automática de Língua Natural, Domínio Aberto, Aprendizagem Profunda, Redes Neuronais Recorrentes, Modelos de Tópicos, en=Natural Language Generation, Open Domain, Deep Learning, Recurrent Neural Networks, Topic Models}

Maio 29, 2017, 14:30

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

David Manuel Martins de Matos

Departamento de Engenharia Informática (DEI)

Professor Auxiliar

ORIENTADOR

Ricardo Daniel Santos Faro Marques Ribeiro

ISCTE-IUL

Professor Auxiliar