1.一种基于图卷积和Transformer复合神经网络的行为识别方法,其特征在于,包括如下步骤:S1、通过开源人体姿态估计框架OpenPose对视频流进行人体姿态估计得到视频中每一帧的人体部位的关键节点坐标数据;
S2、通过图处理模块将人体部位关键节点坐标数据处理成图数据结构,得到人体骨架序列特征矩阵,作为图卷积模型的输入;
S3、通过图卷积模型建模空间维度上的特征;
在步骤S3的图卷积模型中,采用改进的CTR‑GCN,在节点特征的通道维度上对邻接矩阵进行参数化,删除了多尺度时间卷积模块,并对多层的图卷积进行了层数削减和分组,避免图卷积过度参数化;图卷积模型建模空间维度上的特征具体表达公式如下:其中, 是输入张量;A是一个可学习的邻接矩阵,初始值为人体骨架图G=(V,E)邻接矩阵的归一化值;M是一个相关性矩阵,M的值由人体骨架图G=(V,E)中的节点vti和vtj两两计算相似度得到;W是一个可学习的参数矩阵;
S4、通过输入端适配模块进行Transformer模块的输入端适配;
所述步骤S4的输入端适配具体包括如下:
S41、将步骤S3中图卷积模型输出的特征张量进行维度转换,将通道维度和节点维度相乘得到一个新的特征维度;
S42、对上一步得到的特征做线性变化,将它投影到更高维的空间中转换成Token序列,作为Transformer模型的输入;
S5、通过Transformer模型建模时间维度上的特征;
所述Transformer模型包含两个Transformer块;每一个Transformer块由一个位置编码层、2个LayerNorm归一化层以及一个包含GELU激活函数的MLP构成;
在步骤S5的Transformer模型中,采用分类模型ViT并通过基于均匀分布的位置编码初始化方式,ViT中的多头自注意力计算公式如下:其中,h表示多头自注意力的head数量,H是它的最大值;Qh、Kh、Vh分别由图卷积模型的输出经过输入端适配后分别乘上一个参数矩阵WQ、WK、WV得到;
S6、通过一个包含全局平均池化层和全连接层的分类头部来输出模型的预测结果;
S7、迭代训练和优化网络超参数,得到最终的复合神经网络,输出最终的动作识别结果。
2.根据权利要求1所述的基于图卷积和Transformer复合神经网络的行为识别方法,其特征在于:步骤S1中,将远程摄像头的视频数据以视频流的方式作为OpenPose的输入,得到当前视频每一帧上的各个人体部位关键点坐标和置信度,保存在集合V={vti|t=1,…,T,i=1,…,N}中,其中,T为当前视频帧数,N为每一帧的人体部位关键点数目,vti为第t帧上的第i个人体部位关键点,人体部位关键点上的特征向量F(vti)由第t帧上的第i个关节的坐标向量和姿态估计置信度组成。
3.根据权利要求1所述的基于图卷积和Transformer复合神经网络的行为识别方法,其特征在于:步骤S2中,图处理模块具体包括:将关节点集合V={vti|t=1,…,T,i=1,…,N}中的节点用边连接起来保存在边集合E={vtivtj|(i,j)∈H}中,其中,H是自然连接的人体关节的集合;
然后,将V和E结合起来,得到每一帧的人体骨架图G=(V,E),使用邻接矩阵A来表示;
最后,把每一帧上所有节点的特征向量拼接成一个特征矩阵 作为图卷积模型的输入。
4.根据权利要求1所述的基于图卷积和Transformer复合神经网络的行为识别方法,其特征在于:在步骤S7中,将步骤S6得到的预测结果与真实标签计算交叉熵损失,并通过Adam优化器和反向传播算法迭代训练优化网络超参数,交叉熵损失函数的计算公式如下:其中,M为类别数,yic代表来自目标域样本i的标签,如果样本i的真实类别等于c则为1,不等于c则为0,pi,c为样本i被预测为类别c的概率。
5.根据权利要求4所述的基于图卷积和Transformer复合神经网络的行为识别方法,其特征在于:所述的网络超参数包括批大小、学习率、优化器、权重衰退和Dropout。