FenixEdu™

Dissertação

{en_GB=Robot hand self-perception via 2D segmentation: a deep learning approach} {} EVALUATED

Detalhes: {pt=Com este trabalho, propomos utilizar deep learning para realizar segmentação em imagens com mãos robóticas, servindo várias aplicações, e.g. ajudar em tarefas que requerem precisão no posicionamento das mãos do robô. Detetar as próprias mãos, utilizando visão, é mais fidedigno do que utilizar cinemáticas porque, nesta última abordagem, cada junta do braço tem que estar devidamente calibrada, caso contrário pequenos offsets propagam-se, criando erros maiores quando estimada a pose da mão. Manter as juntas calibradas é uma tarefa pouco prática e demorada. Para superar o desafio de recolher e anotar quantidades grandes de imagens, os dados são gerados em simulação, utilizando domain randomization. Utilizamos um modelo, pré-treinado num dataset de grande escala, cujos pesos são re-treinados para a nova tarefa. Realizamos experiências, com diferentes datasets e estratégias de treino, mostrando resultados em diferentes tipos de datasets, com imagens geradas em simulação e em ambientes indoor, utilizando o robô real. Destas experiências criamos um modelo final, treinado apenas com imagens sintéticas, que atinge um average IoU de 82% nos dados de validação sintéticos e 63,5% nos dados de validação reais. Estes resultados foram atingidos com apenas 1000 imagens e 3 horas de treino, utilizando apenas uma GPU. Não pretendemos criar um modelo robusto, mas sim desenvolver uma metodologia que necessite de poucos dados para atingir um desempenho razoável, em dados reais, e dar uma visão detalhada de como gerar, devidamente, variabilidade nos dados e como re-treinar modelos complexos para realizar uma tarefa muito diferente., en=We propose using deep learning to perform segmentation on images containing robotic hands. This serves many applications, e.g. helping the robot with tasks requiring accurate knowledge about the positioning of the robot’s hands. Detecting its own hands, through vision, is more reliable than using kinematics because, in the latter, each joint of the arm must be properly calibrated, otherwise small offsets will propagate and create large errors when estimating the hand’s pose. Maintaining all the joints properly calibrated is impractical and time consuming. To overcome the challenge of collecting and annotating large amounts of images, the datasets are generated in simulation, using domain randomization. We use a model, pre-trained on a large scale dataset, and fine-tune it on our datasets. We make experiments, with different training datasets and strategies, showing results on different types of datasets, with images generated in simulation and real indoor environments, with the real robot. From these experiments we create a final model, trained solely on synthetic images, that achieves an average IoU of 82% on synthetic validation data and 63;5% on real validation data. These results were achieved with only 1000 training images and 3 hours of training time on a single GPU. We do not intend to create a robust model, but rather develop a methodology requiring low amounts of data to achieve reasonable performance, on real data, and give detailed insight on how to properly generate variability in the data and how to fine-tune a complex model to a very different task.}
Keywords: {pt=Mãos Robóticas, Segmentação, Deep Learning, Domain Randomization, Ambientes Indoor, en=Robotic Hands, Segmentation, Deep Learning, Domain Randomization, Indoor environments}

Discussão: dezembro 16, 2019, 15:30