Dissertação
Perceive, Represent, Generate: Translating Multimodal Information to Robotic Motion Trajectories EVALUATED
Nesta dissertação, nós contribuímos com um novo sistema que mapeia informação perceptual proveniente de diferentes modalidades (por exemplo, visual ou sonora), que corresponde a uma sequência de comandos, em uma sequência de movimentos para serem executados por um robô. O nosso sistema, chamado Observar-Representar-Gerar, inclui três fases de processamento. Na primeira fase, o sistema recebe e processa os dados recebidos, isolando-os em comandos individuais. A segunda fase, que é um elemento central no nosso sistema, usa um modelo generativo que captura a distribuição conjunta dos dados provenientes das várias modalidades e do movimento do robô. Esta representação permite que o robô determine o movimento adequado, dada a entrada de informação perceptual a partir de um comando individual. Finalmente, na terceira fase, os movimentos provenientes dos diferentes comandos individuais são combinados numa primitiva de movimento dinâmico, que o robô deve executar. O nosso sistema é avaliado no contexto da escrita manuscrita robótica, onde o robô recebe como entrada uma palavra ou frase (na forma impressa, escrita à mão através de um certo movimento ou como um fluxo de som) e determina o movimento completo necessário para escrevê-la. O nosso sistema é avaliado como um todo e cada etapa também é avaliada individualmente. Nós avaliamos também o desempenho de diferentes modelos generativos multimodais usados para testar o nosso sistema e ainda mostramos que nosso sistema consegue gerar palavras manuscritas coerentes e legíveis, independentemente das modalidades fornecidas ao modelo.
novembro 15, 2021, 13:0
Publicação
Obra sujeita a Direitos de Autor
Orientação
ORIENTADOR
Francisco António Chaves Saraiva de Melo
Departamento de Engenharia Informática (DEI)
Professor Associado
ORIENTADOR
José Alberto Rodrigues Pereira Sardinha
Departamento de Engenharia Informática (DEI)
Professor Auxiliar
