Dissertação

Augmentation of Two-stream CNN architectures with context and attention for action detection and recognition EVALUATED

Tarefas como reconhecimento de acções são um passo promissor em várias áreas como vendas, robótica, classificação de videos e sistemas de recomendação. Recentemente, foram apresentados datasets dificeis que são representativos da tarefa de detecção e reconhecimento de acções multi-pessoa e multi-label. Propomos melhorar as arquiteturas two-stream CNN estado-da-arte para esta tarefa. Estas arquiteturas estão limitadas no facto em que tentam detectar acções independentemente do background e de outras pessoas no mesmo video. Com este fim, três novas contribuições são apresentadas: filtros de atenção, streams de contexto e uma combinação de ambos. Para os filtros de atenção, com o objectivo de não só extrair informação de um target mas também do background, treinamos arquiteturas two-stream CNN com diferentes tipos de filtros aplicados nos inputs RGB e Optical Flow. Para as streams de contexto, com o objectivo de prever as labels de um target usando as labels dos seus vizinhos, usamos as labels do dataset para codificar explicitamente a relação entre classes executadas por multiplas pessoas como features de contexto e treinamos redes LSTM nestas features. Finalmente, combinamos estes métodos através da fusão das streams de contexto com as arquiteturas two-stream treinadas com filtros de atenção. Os resultados mostram que a combinação dos primeiros dois métodos supera a performance de cada um e todos os melhoramentos superam a baseline.
Detecção de Acções, Reconhecimento de Acções, Datasets Multi-label, Filtros de atenção, Relações espatiotemporais, Redes Neuronais Convolucionais

novembro 9, 2018, 9:0

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Alexandre José Malheiro Bernardino

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Professor Associado