spatial temporal graph convolutional network for skeleton-based action recognition

PPSIG：Paddlesports ST-GCN动作识别 - 飞桨AI Studio数据集为fsd-10花样滑冰，项目为ST-GCN从PaddleVideo抽取代码，可直接运行，acc为0.48 - 飞桨AI Studio/aistudio/projectdetail/4224807基于ST-GCN实现花样滑冰动作分类 - 飞桨AI Studio基于ST-GCN实现花样滑冰动作细粒度分类 - 飞桨AI Studio/aistudio/projectdetail/3435853?channelType=0&channel=0论文笔记之ST-GCN_To_1_oT的博客-CSDN博客_st-gcn1. 摘要动态人体骨架模型带有进行动作识别的重要信息，传统的方法通常使用手工特征或者遍历规则对骨架进行建模，从而限制了表达能力并且很难去泛化。作者提出了一个新颖的动态骨架模型ST-GCN，它可以从数据中自动地学习空间和时间的patterns，这使得模型具有很强的表达能力和泛化能力。在Kinetics和NTU-RGBD两个数据集上achieve substantial improvements over mainstream methods（与主流方法相比，取得了质的提升）。2. 相关工作.../haha0825/article/details/107192773/

首先将图卷积应用到基于骨架的动作识别中，可以隐式的通过图卷积将位置信息和时序动态信息结合起来，使用骨架做动作识别也有诸多优势，相较于rgb帧，光流，人体骨骼这一模态存在不遮挡，无光照畸变等因素影响的特点。

1.总体架构

上图是网络结构，输入是图节点上关节坐标向量，然后是一些列时空卷积操作来提取高层的特征，最后用softmax分类器得到对应的动作。时空图卷积网络st-gcn将图卷积gcn和时间卷积网络tcn结合起来，扩展成时空图卷积。

2.骨架的图结构

上图是比较明显的，根据人体结构，将每一帧的节点连接成边，这些边形成空间边，在连续时间步骤中连接相同关节的时间边。在此基础上构建多层的时空图卷积，它允许信息沿着空间和时间两个维度去整合。

要完成st-gcn识别动作，首先要将原始视频数据通过openpose转成骨骼点数据。

3.GCN

图卷积网络（Graph Convolutional Network，GCN）借助图谱的理论来实现空间拓扑图上的卷积，提取出图的空间特征，具体来说，就是将人体骨骼点及其连接看作图，再使用图的邻接矩阵、度矩阵和拉普拉斯矩阵的特征值和特征向量来研究该图的性质。

4.TCN

GCN帮助我们学习到了空间中相邻关节的局部特征，在此基础上，我们需要学习时间中关节变化的局部特征，如何为图叠加时序特征，有TCN时间卷积和序列模型LSTM。

ST-GCN单元通过GCN学习空间中相邻关节的局部特征，而时序卷积网络（Temporal convolutional network，TCN）则用于学习时间中关节变化的局部特征。TCN相较于CNN，对时间序列提取特征时，不再受限于卷积核的大小。对普通卷积，需要更多层才能采集到一段时间序列的特征，而TCN中采用的膨胀卷积（Dilated Convolution），通过更宽的卷积核，可以采样更宽的信息。卷积核先完成一个节点在其所有帧上的卷积，再移动到下一个节点，如此便得到了骨骼点图在叠加下的时序特征。对于TCN网络，我们通过使用9×1的卷积核进行卷积。为了保持总体的特征量不变，当关节点特征向量维度(C)成倍变化时，我们的步长采取2，其余采取1。

5.训练

输入的数据首先进行batch normalization，然后在经过9个ST-GCN单元，接着是一个global pooling得到每个序列的256维特征向量，最后用SoftMax函数进行分类，得到最后的标签。

每一个ST-GCN采用Resnet的结构，前三层的输出有64个通道，中间三层有128个通道，最后三层有256个通道，在每次经过ST-CGN结构后，以0.5的概率随机将特征dropout，第4和第7个时域卷积层的strides设置为2。用SGD训练，学习率为0.01，每10个epochs学习率下降0.1。