海康IJCAI-2018论文:分层式关键点共现特征提取网络

概述

海康这篇文章做的事情是从人体关键点序列进行行为检测和识别,文中主要提出了全局共现特征的一种提取方法,即通过转置关键点序列,将被卷积的通道维度由坐标维度变为关键点维度,从而提取关键点的全局共现特征;除了全局共现特征,文中还提到了关于多人交互动作问题的解决方法;最后也借鉴Faster RCNN的proposal思想,提出了一种时域动作检测方法.

局部(点)和全局卷积特征

T×N×DT\times N \times D的Feature Map过两个卷积层,卷积层参数分别是 (1×1×64)(1 \times 1 \times 64)(3×1×32)(3 \times 1 \times 32). Feature Map结构为(H, W, C),卷积核 (1×1)(1 \times 1 )(3×1)(3 \times 1 ) 分别是关键点级(point-level)的特征和3帧时序上的关键点级特征.
通过tranpose(permute)操作,按(0,2,1)将Feature Map转为T×D×NT\times D \times N顺序.使用两层 (3×3)(3 \times 3 ) 卷积核作用其上(原文中filter数分别为32和64,stride为2),N个关键点作为channel,卷积层可提取所有关键点间的全局特征. (3×3)(3 \times 3 ) 卷积核在对应3帧和3个维度的坐标上.
网络结构图如下:

多人问题

为什么?部分动作如拥抱、握手等,是多人的.
怎么做?
早期融合: 多人的关键点信息在输入网络前进行stack,设置最大可接受人数,人数不足时,zero padding.
后期融合: 多人的关键点信息分别输入网络,取conv6的特征,进行Max,Mean或Concat操作后,再进行分类.

参考

[1] Li, Chao, Qiaoyong Zhong, Di Xie, and Shiliang Pu. "Co-occurrence Feature Learning from Skeleton Data for Action Recognition and Detection with Hierarchical Aggregation." arXiv preprint arXiv:1804.06055 (2018).