1.一种基于时空图的人体骨骼动作识别方法,其特征在于,包括以下步骤:S1、获取骨骼数据,并对所述骨骼数据进行预处理,得到二阶数据信息;
S2、将二阶数据信息输入多分支网络,得到骨骼数据提取信息;
S3、将骨骼数据提取信息输入时空特征提取网络,得到骨骼数据的时空特征信息;
S4、将骨骼数据的时空特征信息依次输入全局平均池化层和全连接层,得到置信度最高的动作,完成人体骨骼动作识别。
2.根据权利要求1所述的基于时空图的人体骨骼动作识别方法,其特征在于,所述步骤S1中,二阶数据信息包括节点位置信息、运动向量信息和骨骼信息;
所述步骤S1包括以下分步骤:
S11、通过人体姿态估计算法或深度摄像头获取骨骼数据,进而根据骨骼数据构建时空图;
S12、将时空图每帧中的节点位置信息减去其中心节点位置信息,得到节点相对位置信息;
S13、将时空图相邻两帧的节点位置信息相减,得到运动向量信息;
S14、将时空图每帧中相互连接的节点构成骨骼边,通过计算相连接的两节点位置得到骨骼边信息。
3.根据权利要求2所述的基于时空图的人体骨骼动作识别方法,其特征在于,所述步骤S11中,构建时空图的方法具体为:以骨骼数据的关节点作为节点,进而根据人体自然结构的自然连接和连接骨骼数据不同帧间对应关节点,构建时空图 ;其中,R为三维矩阵,C为通道数,T为骨骼数据的总帧数,V为节点集,且 ,vti为骨骼数据第t帧中第i节点,U为骨骼数据的第t帧中的关节点的总数。
4.根据权利要求3所述的基于时空图的人体骨骼动作识别方法,其特征在于,所述步骤S2中,多分支网络包括三个并行的分支网络,每个分支网络均包括两个相互连接的STGCN子网络,所述STGCN子网络包括依次连接的图卷积模块、时间卷积模块和时空点注意力模块;
所述步骤S2具体为:将节点位置信息、运动向量信息和骨骼信息一一对应输入三个分支网络中,进而将三个分支网络的输出结果进行拼接,得到骨骼数据提取信息;
其中,所述节点位置信息、运动向量信息和骨骼信息的表示形式具体为时空图的三维矩阵 ;R为三维矩阵,C为通道数;每个分支网络的输出结果表示形式具体为,D为每个所述分支网络输出数据的通道数;骨骼数据提取信息的表示形式具体为 。
5.根据权利要求4所述的基于时空图的人体骨骼动作识别方法,其特征在于,所述步骤S3中,时空特征提取网络包括三个依次连接的STGT子网络,每个所述STGT子网络均通过残差连接,每个所述STGT子网络均包括依次连接的时空图模块、多尺度混合自卷积模块和时空点注意力模块;
所述时空图模块用于提取输入数据混合时空特征信息,所述多尺度混合自卷积模块用于提取输入数据中连续帧间节点的上下文特征信息。
6.根据权利要求5所述的基于时空图的人体骨骼动作识别方法,其特征在于,所述时空图模块包括并行的跨时空子模块和图卷积子模块;所述跨时空子模块用于提取输入数据的全局跨时空特征信息,所述图卷积子模块用于提取输入数据的局部空间特征信息;
所述时空图模块获取输入数据混合时空特征信息的方法具体为:SA1、通过跨时空子模块提取输入数据的全局跨时空特征信息;
SA2、通过图卷积子模块提取输入数据的局部空间特征信息;
SA3、将得到的全局跨时空特征信息和局部空间特征信息相加混合,得到输入数据混合时空特征信息。
7.根据权利要求6所述的基于时空图的人体骨骼动作识别方法,其特征在于,所述步骤SA1包括以下分步骤:SA11、将输入数据通过1*1的标准卷积进行特征映射到高维空间,得到第一特征图 ;
其中,第一特征图 ;
SA12、将特征图 在时间维度进行分割展开成N个第二特征图,得到第二特征图 ;
其中,第二特征图 ,为第二特征图中包括的帧数;
SA13、将每个第二特征图进行展平并转置,得到第三特征图 ;
其中,第三特征图 ,且 ,Q为第三特征图的所有帧中包含的节点数;
SA14、通过Transformer编码公式捕捉第三特征图的跨时空关系,得到第四特征图;
其中,得到第四特征图 的表达式具体为:
式中,Transformer(·)为Transformer编码公式,n为特征图的序号;
SA15、将第四特征图 合并,得到第五特征图 ,并将第五特征图通过
1*1的标准卷积进行跨通道信息交互,得到输入数据的全局跨时空特征信息;
所述步骤SA2中,通过图卷积子模块提取输入数据的局部空间结构信息 的表达式具体为:式中, 为输入数据的第t帧内第i节点, 为输入特性向量, 为输出特性向量,为包含 节点的邻居节点集, 为映射函数, 为权值函数, 为邻居节点集的总数。
8.根据权利要求5所述的基于时空图的人体骨骼动作识别方法,其特征在于,所述多尺度混合自卷积模块提取输入数据中连续帧间节点的上下文特征信息方法具体为:SB1、将输入数据通过1*1的标准卷积进行处理,并输出的结果分别通过1*9卷积核的自然卷积和1*5卷积核的自然卷积,分别得到输出特征Y1和输出特征Y2;
其中,所述输出特征 ,输出特征 ;
SB2、将输出特征Y1和输出特征Y2进行特征融合,得到输出特征Z;
其中,输出特征 ;
SB3、通过bottleneck结构的卷积块对输出特征Z进行特征提取,得到局部通道注意力和全局特征通道注意力;
其中,得到局部通道注意力 的方法具体为:
通过1*1的标准卷积将输出特征Z的通道数降为 ,再通过1*1的标准卷积将输出特征Z的通道数升为C,得到局部通道注意力 ;
得到全局特征通道注意力 的方法具体为:
将输出特征Z进行全局平均池化,得到中间特征,通过1*1的标准卷积将中间特征的通道数降为 ,再通过1*1的标准卷积将中间特征的通道数升为C,得到全局特征通道注意力;
SB4、将局部通道注意力和全局特征通道注意力相加,并通过Sigmoid激活函数得到注意力权重 ;
其中,所述注意力权重 ;
SB5、将输出特征Y1与 逐点相乘,将输出特征Y2与 逐点相乘,进而将两相乘结果相加,得到输入数据的时空特征信息。
9.根据权利要求1所述的基于时空图的人体骨骼动作识别方法,其特征在于,所述步骤S4具体为:将骨骼数据的时空特征信息通过全局平均池化层,得到128维特征向量,并将所述特征向量输入全连接层,确定全连接层中置信度最高的动作作为人体骨骼动作的识别结果。