FenixEdu™

Dissertação

{en_GB=Improving Object Detection Through Contextual Rescoring} {} EVALUATED

Detalhes: {pt=Detectores de objectos actuais baseiam-se numa abordagem de dois passos: primeiro, identificar regiões na imagem que contenham objectos, e depois, prever a classe de objecto dentro das regiões. As previsões de classe são feitas independentemente para cada região, não utilizando informação contextual, que pode ser inferida pela presença de outros objectos. A partilha de informação entre detecções claramente contribui para melhorar os resultados no problema de reconhecimento, dado que existem fortes dependências entre co-ocorrências de objectos na mesma imagem (ex. é improvável encontrar um sofá e um cavalo na mesma imagem). Neste trabalho, abordamos o problema da utilização do contexto na detecção de objectos. Fazemos uma análise dos principais erros feitos pelos detectores actuais e que fontes de contexto podem ser usadas para mitigar esses erros. Para incorporar informação relativa a co-ocorrências, propomos um modelo que utiliza redes neuronais recorrentes bidireccionais com mecanismo de atenção treinadas para reavaliar o conjunto de detecções produzidas por uma arquitectura de detecção existente. Propomos um objectivo de treino como sendo o conjunto de confianças reavaliadas que maximiza a Average Precision para o conjunto de detecções em causa. Resultados experimentais no MS COCO dataset demonstram que o modelo proposto obtém melhorias consistentes na Average Precision na ordem de 0.5 a 1, utilizando diferentes detectores (Cascade R-CNN e Faster R-CNN) e diferentes backbones convolucionais (ResNet-50 e ResNet-101). , en=Current state-of-the-art object detectors rely on a two-stage approach: first, identify regions in the image that are likely to contain objects, then predict the object class inside the regions. Class predictions are made independently from other regions, thus having an insufficient use of context that can be inferred from the presence of other objects. Sharing this information would clearly improve the results of the recognition problem since there are strong dependencies between co-occurrences of objects in the same image (e.g., an image is unlikely to contain both a couch and a horse). We tackle the problem of incorporating context in object detection. We analyse the errors that current detectors make and what sources of context can be used to mitigate these errors. To incorporate the information relative to object co-occurrences, we propose a bidirectional recurrent neural network with attention model that learns a rescoring rule, given a set of object detections from an existing detection architecture. The training target we propose is the set of rescored confidences that maximises Average Precision for the given set of detections. Through experiments in the MS COCO dataset, our model obtains consistent improvements in Average Precision that range from 0.5 to 1, across different convolutional backbones (ResNet-50 and ResNet-101) and different architectures (Cascade R-CNN and Faster R-CNN).}
Keywords: {pt=Aprendizagem Profunda, Visão Computacional, Detecção de Objectos, Contexto, Redes Neuronais Recorrentes, Mecanismos de Atenção, en=Deep Learning, Computer Vision, Object Detection, Context, Recurrent Neural Networks, Attention Mechanisms}

Discussão: novembro 27, 2019, 17:30