Dissertação

{pt_PT=From rocks to walls: a machine learning approach for lunar base construction} {} EVALUATED

{pt=A utilização de recursos in-situ é um aspecto chave para uma exploração humana eficiente de ambientes extraterrestres. Um método de baixo custo para a construção de estruturas preliminares é o empilhamento de rochas não processadas, encontradas localmente, sem recurso a argamassa. Esta tese foca-se na aprendizagem autónoma desta tarefa complexa. Abordagens anteriores recorrem a modelos previamente adquiridos, que podem ser difíceis de obter no contexto de uma missão. Em alternativa, propomos uma abordagem sem modelos e baseada em dados. O problema é abstraído para a tarefa de selecionar a posição para cada pedra, apresentada numa sequência, ser colocada sobre a estrutura atualmente construída. O objetivo é cunstruir um muro que aproxime um volume objetivo, dada a percepção tridimensional da estrutura, do próximo objeto e do objetivo. Um agente é desenvolvido para aprender esta tarefa utilizando aprendizagem por reforço. O algoritmo Deep Q-networks é usado, onde a Q-network estima um mapa de valor correspondente ao retorno esperado de colocar o objeto em cada posição de uma vista superior da estrutura. A q-funtion aprendida capta o objetivo e a dinâmica do ambiente. O comportamento que surge é, de certo modo, consistente com a teoria existente para esta tarefa. A política aprendida supera heurísticas criadas com conhecimento prévio da tarefa, tanto em termos de estabilidade da estrutura como de semelhança com o volume objetivo. Apesar da simplificação da tarefa, a política aprendida com esta abordagem pode ser aplicada numa situação real como o planeador de alto nível num pipeline de construção autónoma., en=In-situ resource utilization is a key aspect for an efficient human exploration of extraterrestrial environments. A cost-effective method for the construction of preliminary structures is dry stacking with locally found unprocessed rocks, which is a challenging task. This thesis focus on learning this task from scratch. Former approaches rely on previously acquired models, which may be hard to obtain in the context of a mission. In alternative, we propose a model-free, data-driven approach. We formulate an abstraction of the problem as the task of selecting the position to place each rock, presented to the robot in a sequence, on top of the currently built structure. The goal is to assemble a wall that approximates a target volume, given the 3D perception of the currently built structure, the next object and the target volume. An agent is developed to learn this task using reinforcement learning. The Deep Q-networks algorithm is used, where the Q-network outputs a value map corresponding to the expected return of placing the object in each position of a top-view depth image. The learned q-function is able to capture the goal and dynamics of the environment. The emerged behaviour is, to some extent, consistent with dry stacking theory. The learned policy outperforms engineered heuristics, both in terms of stability of the structure and similarity with the target volume. Despite the simplification of the task, the policy learned with this approach could be applied to a realistic setting as the high level planner in an autonomous construction pipeline.}
{pt=aprendizagem por reforço, utilização de recursos in-situ, construção autónoma, rochas naturais, en=reinforcement learning, in-situ resource utilization, autonomous construction, dry stacking, model-free}

Outubro 29, 2020, 9:0

Orientação

ORIENTADOR

Rodrigo Martins de Matos Ventura

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Professor Auxiliar

ORIENTADOR

Alexandre José Malheiro Bernardino

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Professor Associado