Dissertação

{en_GB=Natural Language Processing: My Grandchild-Bot} {} EVALUATED

{pt=Durante muitos anos, as competências de comunicação de um robot foram simplificadas devido à sua complexidade. Nos últimos anos, um conjunto de avanços nas áreas de Machine Learning e Processamento Natural de Linguagem trouxeram muitas novas possibilidades para as interações entre humanos e robots. Contudo, a maioria da investigação e dos dados obtidos nestas áreas são em inglês, completamente negligenciando outras línguas. De modo a aplicar estas técnicas à língua portuguesa, é investigada uma solução adequada às bases de dados existentes e que considere as diferenças entre as duas linguagens, como a flexão em género e em número e a raíz das palavras. Neste trabalho o robot interage com os humanos num diálogo em português que deve funcionar de um modo rápido e reativo, considerando e inspecionando diálogos anteriores de modo a construir um modelo de conversa o mais natural possível. Com isto em mente, o Latent Semantic Analysis, uma técnica da área de Processamento Natural de Linguagem, é utilizado juntamente com um classificador Naïve Bayes de forma a prever o que o robot deve responder com base numa expressão humana. A utilização de uma lista de palavras vazias e de um extractor de palavras-chaves, como em várias investigações na língua inglesa, são cuidadosamente inspecionadas, juntamente com os parâmetros do sistema de forma a compreender a sua influência no desempenho final. Também uma nova abordagem para adquirir novos dados em português, através de um formulário, é apresentada dado que a quantidade de dados disponível é quase não-existente., en=For many years, the communication competences of a robot have been oversimplified due to its complexity. Over the last few years, there were a couple of breakthroughs in the Machine Learning and Natural Language Processing areas that brought a lot of new possibilities to human-robot interactions. However, much of the research and data made in these fields are in English, with other languages being mostly overlooked. In order to apply these techniques to the Portuguese language, a solution suitable to the available databases is investigated and the differences between both languages, such as the plural and gender endings and the word stemming, are taken into consideration. Here, the robot communicates with humans in Portuguese and the discourse should work in a reactive and rapid manner, considering and inspecting previous dialogues to build a conversational model as natural as possible. Bearing this in mind, the Latent Semantic Analysis, a Natural Language Processing technique, is used intertwined with a Naïve Bayes classifier to predict what the robot should respond based on the human utterance. The usage of a stop words list and a keyword extractor like in the English research are carefully inspected along with the system parameters to understand their influence on the final performance. A new approach to gather new Portuguese dialogues based on a form is also proposed since the quantity of data available is almost non-existent. }
{pt=Processamento Natural de Linguagem, Latent Semantic Analysis, Machine Learning, Multinomial Naïve Bayes Classifier, Robótica Social, Interações Humano-Robot, en=Natural Language Processing, Latent Semantic Analysis, Machine Learning, Multinomial Naïve Bayes Classifier, Social Robotics, Human-Robot Interaction}

Junho 24, 2020, 11:0

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Plínio Moreno López

ISR

Investigador Doutorado

ORIENTADOR

José Alberto Rosado dos Santos Victor

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Professor Catedrático