Dissertação

{en_GB=A Deep Neural Network for Object Detection and Tracking with 3D LiDAR} {} EVALUATED

{pt=Os veículos autónomos analisam o seu ambiente com diversos sensores (p.e. câmeras, LiDAR) de forma a tomar a ação mais segura na estrada. Consequentemente, localizar e prever a trajetória de outros agentes rodoviários motivou a investigação de métodos de deteção e tracking de objetos, no domínio de Visão por Computador. Esta tese modifica uma rede deep learning usada para a deteção de objetos 3D de forma a fazer simultaneamente deteção e tracking de objectos a partir de point clouds semânticas 3D apenas. Estas point clouds são obtidas num pré-processamento que tira vantagem da fusão de resultados densos de segmentação semântica em 2D com point clouds 3D que oferecem naturalmente informação de profundidade. O método de tracking é incluído na rede de forma a que sejam feitas predições de vetores de deslocamento de objectos entre duas frames consecutivas, podendo assim prever a sua velocidade. Adicionalmente, foi testado um canal extra de input para um heatmap que contém a posição dos objetos na frame anterior. Foram realizados diversos estudos de ablação para testar a performance do modelo proposto ao usar diferentes estilos de heatmaps, e ao não usar o input extra de heatmap de todo. Os resultados demonstram que um modelo sem heatmaps oferece os melhores resultados, porque o modelo não consegue estimar os heatmaps corretamente. A nossa rede deep learning consiste num único modelo end-to-end para a deteção e tracking, e corre 38% mais rápido (18 FPS) que o modelo basal (13 FPS)., en=Autonomous vehicles scan their environment with a range of sensors (e.g. camera, LiDAR) to take the safest action on the road. Therefore, locating and predicting the motion of other road agents has motivated plenty of research on the computer vision tasks of object detection and object tracking. This thesis takes an existing deep learning pipeline for 3D object detection [30] and modifies it to make location and tracking predictions from 3D semantic point clouds only. These point clouds are obtained in a pre-processing step which exploits the fusion of dense 2D semantic segmentation results with 3D point clouds that naturally offer depth information. The tracking method from [40] is embedded within the network to predict objects’ displacements between two consecutive frames, thus, predicting their velocity. An extra input channel for a heatmap containing the objects’ location in the previous frame was also tested. Several ablation studies were conducted to test the model’s performance using different types of heatmaps, and not using heatmaps in any way. Results showed that a heatmap absent model yielded overall better results, because our model could not predict the heatmaps correctly. Our deep learning approach allows end-to-end learning for detection and tracking, and runs 38% faster (18 FPS) than the baseline model (13 FPS).}
{pt=LiDAR, deteção, seguimento, aprendizagem profunda, deslocamento, estudo de ablação, en=LiDAR, detection, tracking, deep learning, displacement, ablation study}

setembro 8, 2021, 8:0

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Pedro Daniel dos Santos Miraldo

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Professor Auxiliar Convidado