1.基于语义感知图卷积的三维手物姿态估计方法,其特征在于,使用特征提取网络从彩色图像中提取手感兴趣区域特征和物感兴趣区域特征;基于手感兴趣区域特征估计二维手姿态,基于物感兴趣区域特征估计二维物姿态;将二维手姿态和二维物姿态输入三维姿态估计网络以估计三维手物姿态;所述三维姿态估计网络包括姿态估计阶段和姿态优化阶段,姿态估计阶段由编码阶段和解码阶段组成,编码阶段包括依次设置的多个由共同注意力模块和语义感知图卷积模块组成的组合模块;解码阶段包括依次设置的多个由共同注意力模块和语义感知图卷积模块组成的组合模块,随后设置一个单独的语义感知图卷积模块,编码阶段与解码阶段之间设置两个全连接层;姿态优化阶段由多个共同注意力模块与语义感知图卷积模块组成的姿态修正模块级联而成;
二维手姿态图通过语义感知图卷积模块处理的过程为:第 层输入为 ,其中 是维度的表示, 表示关键点数量; 表示每个关键点的特征维度,则第 层的特征更新过程表示如下:;
其中,
;
;
式中, 为第 层的输出,同时也是第 +1层的输入,是单位矩阵,
是二维手姿态图的邻接矩阵,如果第i个关键点Ji和第j个关键点Jj相同或存在连接关系,则,否则为0;是 的对称归一化矩阵,其中, 是二维手姿态图的潜在关系矩阵,如果第i个关键点Ji和第j个关键点Jj处于同一层级,则潜在关系矩阵第i行、第j列位置上的元素 ,否则为0; 为第一可学习权重矩阵, 为第二可学习权重矩阵, 为softmax激活函数, 是一个逐元素的操作, 是可学习矩阵,在 操作中, 相当于掩码,用于筛选是目标关键点的邻接关键点, 为ReLU非线性激活函数,表示归一化的度矩阵, 表示领接矩阵 的第i行、第j列位置上的元素, 表示度矩阵;
使用共同注意力模块挖掘图与图之间的交互关系,所得交互关系与语义感知图卷积模块所习得的关系相互补充,以建模现实场景下手物交互过程中的全方位关系,过程如下:对于二维手姿态图而言,首先使用三个1×1卷积从手部特征 提取查询集合, 键集合 ,值集合 ,其中的每一行都对应于一个关键点的查询集合、键集合和值集合;对于物体而言,同样使用三个1×1卷积从物体特征提取查询集合 、键集合 和值集合 ;计算物体对手的注意力影响 的公式如下:
;
所有符号的上标h表示手,o表示物体; 是物体对手的注意力影响,用
表示第i行所有物体顶点对手部第i个关键点Ji的期望概率分布, 是从手部特征获得的查询集合, 是从物体特征获得的键集合, 表示物体的键集合的转置,是特征维度;则物体在交互过程中对手产生的影响用以下过程表示:;
其中, 是共同注意力模块计算的物体对手部的影响特征, 是从物体
特征获得的值集合,手对物体的注意力影响计算如下:
;
;
其中, 为共同注意力模块计算的手对物体的影响特征, 是手对物
体的注意力影响, 是从手聚合而得的特征; 是从手部特征获得的值集
合, 是物体特征获得的查询集合, 是从手部特征获得的查询集合, 是从手部特征获得的键集合,T表示转置;
得到物体对手及手对物体的相互影响特征后,完整的手部特征及物体特征更新为:;
;
其中, 代表多层感知层操作, 是经过共同注意力模块更新后的手部特征,是经过共同注意力模块更新后的物体特征,也是三维姿态估计网络中下一阶段的语义感知图卷积模块的输入; 是输入共同注意力模块的手部特征, 是输入共同注意力模块的物体特征, 为共同注意力模块计算的物体对手部的影响特征, 为共同注意力模块计算的手对物体的影响特征。
2.根据权利要求1所述的基于语义感知图卷积的三维手物姿态估计方法,其特征在于,将裁剪到一定大小的彩色图像作为特征提取网络的输入以提取手感兴趣区域特征和物感兴趣区域特征,所述特征提取网络包括ResNet50网络和特征金字塔网络。
3.根据权利要求1所述的基于语义感知图卷积的三维手物姿态估计方法,其特征在于,基于手感兴趣区域特征估计二维手姿态,基于物感兴趣区域特征估计二维物姿态的具体过程为:使用卷积将手感兴趣区域特征变换为手热图,将物感兴趣区域特征变换为物热图,其中,手热图和物热图的每一个通道分别对应于手或物姿态中的一个关键点,基于通道使用argmax函数进行关键点预测,最后将关键点拼接起来作为二维手姿态或二维物姿态。
4.根据权利要求3所述的基于语义感知图卷积的三维手物姿态估计方法,其特征在于,关键点计算方式如下:;
式中, 为二维手姿态或二维物姿态的第k个关键点, 表示手热图或物热图的第k个通道,n为手热图或物热图某一通道中所有像素点的索引, 函数用来提取对应通道所有像素点中最大像素值的索引。
5.根据权利要求4所述的基于语义感知图卷积的三维手物姿态估计方法,其特征在于,使用真值热图监督特征提取网络的学习,损失函数 定义为预测热图与真值热图的均方误差,即:;
式中, 为预测热图, 为真值热图;
真值热图使用高斯函数计算而得,高斯函数的中心在每个关键点的位置上,真值热图计算方式如下:;
式中, 为基于二维手姿态或二维物姿态第k个关键点位置产生的真值热图,K为关键点数量,K个关键点的真值热图拼接起来即可得到完整的二维手姿态或二维物姿态真值热图 , 为手热图或物热图的高, 为手热图或物热图的宽,e为自然常数,(w,h)为手热图或物热图上某一点的像素坐标,w为像素宽度坐标,h为像素高度坐标;c为高斯函数的标准差; 为第k个关键点的横坐标, 为第k个关键点的纵坐标,k=1,2,…,K。
6.根据权利要求1所述的基于语义感知图卷积的三维手物姿态估计方法,其特征在于,基于二维手姿态构建二维手姿态图 ,基于二维物姿态构建二维物姿态图 ;基于二维手姿态构建二维手姿态图 的过程如下:其中, 表示K个关键点构成的集合, 表示第k个关键点; 表示邻接矩阵,根据关键点间的连接关系来定义邻接关系;若第i个关键点Ji和第j个关键点Jj相同或者存在连接关系,则邻接矩阵第i行、第j列位置上的元素 ,否则为0。
7.根据权利要求6所述的基于语义感知图卷积的三维手物姿态估计方法,其特征在于,三维姿态估计网络将二维手姿态图和二维物体姿态图作为输入,输出三维手物姿态估计结果,在编码阶段通过多次四倍下采样逐步对图节点进行简化,最终将所有信息压缩到一个节点上,而后在解码阶段逐步还原图节点,并通过维度为3的语义感知图卷积模块将节点特征维度变为3,将此作为手物姿态各关键点三维坐标的初始估计结果。
8.一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,其特征在于,该计算机可执行指令执行权利要求1‑7任意一项所述的基于语义感知图卷积的三维手物姿态估计方法。
9.一种电子设备,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,其特征在于,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1‑7任意一项所述的基于语义感知图卷积的三维手物姿态估计方法。
10.一种用于实现权利要求1‑7任意一项所述的基于语义感知图卷积的三维手物姿态估计方法的系统,其特征在于,包括特征提取模块、二维手物姿态估计模块、三维姿态估计模块,特征提取模块使用特征提取网络从彩色图像中提取手感兴趣区域特征和物感兴趣区域特征;二维手物姿态估计模块基于手感兴趣区域特征和物感兴趣区域特征,使用argmax函数进行关键点预测,并将关键点拼接起来作为二维手姿态或二维物姿态;三维姿态估计模块内置三维姿态估计网络,将二维手姿态和二维物姿态输入三维姿态估计网络以估计三维手物姿态。