FenixEdu™

Dissertação

{en_GB=Single Image Plane Reconstruction using Manhattan World Constraints} {} EVALUATED

Detalhes: {pt=Muitos ambientes interiores são constituídos por objectos com propriedades planares e a sua disposição é propícia a explorar os alinhamentos das normais dos planos. Estes cenários são ideais para a Manhattan world assumption, que afirma que todos os planos numa determinada cena estão alinhados com uma das três direções dominantes. Nesta tese de mestrado, apresentamos uma nova rede neuronal profunda, chamada MW-Net, para deteção e reconstrução de planos Manhattan recebendo unicamente uma imagem RGB como entrada. A rede "end-to-end" aprende a estimar uma rotação do referencial camera para o referencial Manhattan World, uma segmentação de imagem e um mapa offset/profundidade. O método proposto não tem qualquer restrição quanto ao número de planos que pode deduzir. A MW-Net foi treinada no dataset ScanNet, e foram extraídos mais de 45000 dados ground-truth. Foi usada uma Dilated Residual Network para extração de "features", seguida de duas ramificações i) Global pooling para prever a rotação; ii) Pyramidal pooling para a segmentação da imagem e mapa offset/profundidade. MW-Net supera o PlaneNet, um método estado de arte, e faz-lo com uma arquitetura menos complexa., en=Many indoor environments have objects with planar proprieties and are arranged as propitious to exploit their planes’ normals alignment. These scenarios are ideal for a Manhattan World assumption, stating that all planes in a scene are aligned with one of the three dominant directions. In this master thesis, we propose a novel deep Neural Network, called MW-Net, for Manhattan planes detection and reconstruction, receiving a single RGB image as input. The end-to-end network learns to predict a rotation from the camera to the MW coordinate system, probabilistic segmentation masks, and an offset/depth map. The proposed method does not have a restriction on the number of planes that can predict. MW-Net was trained on ScanNet, and we extracted over 45000 ground-truth data. It uses a Dilated Residual Network for feature extraction, followed by two ramifications i) Global pooling for rotation prediction; ii) Pyramidal pooling for image segmentation and offset/depth map. MW-Net outperforms PlaneNet on segmentation accuracy, using less architectural complexity, since we do not use a DCRF, unlike PlaneNet.}
Keywords: {pt=Manhattan world, reconstrução planar, MW-Net, rede neuronal profunda, deteção de planos, Dilated Residual Network, en=Manhattan World, Manhattan planes reconstruction, MW-Net, deep Neural Network, plane detection, Dilated Residual Network}

Discussão: fevereiro 3, 2021, 10:0