欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2023103076181
申请人: 山东科技大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2023-12-11
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.基于多分支注意力图卷积的三维人体姿态估计方法,其特征在于,包括如下步骤:

步骤1. 搭建基于多分支注意力图卷积操作MulitBA_GConv的端到端的三维人体姿态估计模型,其包括二维人体姿态识别模型以及MulitBA_GCN三维人体姿态识别模型;

二维人体姿态识别模型用于接收二维图像输入并输出二维图像中人体对应的二维姿态;

MulitBA_GCN三维人体姿态识别模型用于接收二维人体姿态识别模型预测得出的二维姿态数据,并将该二维姿态数据作为输入回归出人体的三维姿态数据;

MulitBA_GCN三维人体姿态识别模型包括输入层、中间特征提取层以及输出层;

输入层是由一个MulitBA_GConv块组成;

中间特征提取层是由多个残差模块依次串联组成;其中,每个残差模块均是由两个MulitBA_GConv块和一个残差块连接组成;

输入特征在每个残差模块中的处理过程为:输入特征依次经过两个MulitBA_GConv块处理后的特征再与输入特征相加后构成该残差模块的输出特征;

每个所述MulitBA_GConv块均是由一个MulitBA_GConv图卷积操作层、一个批归一化BatchNormal 1D操作层以及一个ReLU操作串联层组成;

输出层由一个MulitBA_GConv图卷积操作层和一个全连接层构成;

每个MulitBA_GConv图卷积操作层均包括多分支特征提取层、局部边注意力实现层、全局注意力实现层以及特征融合层;其中:多分支特征提取层,针对节点对自身贡献、对连接的相邻节点的贡献以及对全局其他节点的贡献这三种不同的特征,分别使用三个可学习的转换矩阵进行特征转换和提取;

局部边注意力实现层,通过添加一个可学习的边注意力矩阵作为每一个边的注意力,分别用于聚合来自于自身节点的特征以及相邻节点的特征;

全局注意力实现层,通过添加一个可学习的全局权重矩阵表示行归一化后的全局注意力,用于聚合全局特征;

特征融合层,利用注意力对采用多分支特征提取层提取到的三种不同的特征分别进行关注和聚合,对聚合后的三种特征进行融合;

步骤2. 对搭建好的三维人体姿态估计模型进行训练;

步骤3. 采用训练好的三维人体姿态估计模型进行三维人体姿态估计,得到估计结果。

2.根据权利要求1所述的三维人体姿态估计方法,其特征在于,所述多分支特征提取层中,分别使用不同的转换矩阵进行特征转换和提取,公式如下:;

其中, 、 、 是分别提取到供特征融合层在聚合时使用的特征; 表示输入特征; 表示用于提取给自身节点信息的转换矩阵, 为用于提取给相邻节点信息的转换矩阵, 为用于提取给全局其他节点信息的转换矩阵。

3.根据权利要求2所述的三维人体姿态估计方法,其特征在于,所述局部边注意力实现层中,添加一个可学习的边注意力矩阵 作为每一个边的注意力;其中,K表示边的个数;

定义边注意力矩阵 的值表示节点i对节点j的依赖程度;

新的邻接关系 表示为: ;

其中,邻接矩阵A+I仅作为一个掩模;对于节点i,只关注学到的与其邻接节点j∈N(i)的权重,N(i)表示i的所有相邻节点; 是Softmax算符,实现行归一化功能,它使所有邻接节点j对节点i的边的权重之和为1;

由于新的邻接关系 包含了自连接,因此,将新的邻接关系 分解为两部分,其中:表示自连接权值部分,用它来聚合来自于自身节点的特征 ; 为相邻节点之间的部分,用它来聚合来自于相邻节点的特征 ;

以及 分别表示为: , 。

4.根据权利要求3所述的三维人体姿态估计方法,其特征在于,所述全局注意力实现层中,添加一个可学习的全局权重矩阵 表示行归一化后的全局注意力,聚合后的全局特征 表示为: ;

定义全局权重矩阵 表示j节点对i节点的贡献大小,该矩阵变换实现了将所有其他全局节点的信息按照 定义的注意力大小聚合到节点i上。

5.根据权利要求4所述的三维人体姿态估计方法,其特征在于,所述特征融合层中,利用注意力对采用多分支方式提取到的特征分别进行关注和聚合,对聚合后的三种特征采用相加方式进行融合;

融合后的新特征 表示为:

其中,λ0代表局部特征的权重,λ1代表全局特征的权重。

6.根据权利要求4所述的三维人体姿态估计方法,其特征在于,所述特征融合层中,特征融合通过拼接cat方式进行,融合后的新特征 表示为:;

其中,符号表示拼接操作。

7.根据权利要求1所述的三维人体姿态估计方法,其特征在于,所述步骤1中,搭建人体图形模型;

用图 表示人体中的关节点和骨骼连接情况;

其中, ,N=16,代表16个身体关节点;集合E代表骨骼,即关节点的连接,E用一个邻接矩阵 来表示;

人体图形模型包括16个关节点以及19条边。

8.根据权利要求6所述的三维人体姿态估计方法,其特征在于,所述步骤2具体为:

步骤2.1. 下载标准的人体运动数据集 Human3.6M;

步骤2.2. 对数据集Human3.6的真实的三维姿态数据进行投影预处理,得到对应的4个摄像机参数下的二维真实姿态数据和该摄像机参数下的三维姿态数据;

步骤2.3. 下载二维人体姿态识别的预训练的二维人体姿态识别模型;

二维人体姿态识别模型采用CPN模型;利用标准数据集Human3.6M的4摄像机下的图像作为输入,对应的4个摄像机参数下的二维真实姿态数据作为期望输出,采用预测值和真实关节位置的均方误差 作为损失函数对CPN模型进行再训练;

均方误差 的公式如下: ;

其中,N表示人体节点个数; 表示人体第i个节点的二维预估坐标, 表示人体第i个节点的真实的二维坐标;

最终得到训练好的CPN模型参数,供下一步以及三维人体姿态识别模型使用;

步骤2.4. 利用训练好的CPN模型对数据集Human3.6M的人体图像进行二维姿态识别,并把识别结果进行存储;

步骤2.5. 首先利用步骤2.2中得到的二维真实姿态数据和三维姿态数据,分别作为MulitBA_GCN三维人体姿态识别模型的输入和期望输出,对MulitBA_GCN三维人体姿态识别模型进行预训练,采用预测值和真实关节位置的均方误差 作为损失函数,得到并保存MulitBA_GCN的预训练模型;

均方误差 的公式如下: ; 表示人体第i个节点的三维估计坐标, 表示人体第i个节点的真实的三维坐标;

步骤2.6. 利用步骤2.4从图像得到的二维姿态数据作为输入,步骤2.2得到的对应的三维姿态数据作为期望输出,对MulitBA_GCN三维人体姿态识别模型进行再训练,最终得到训练好的MulitBA_GCN三维人体姿态识别模型参数。

9.根据权利要求8所述的三维人体姿态估计方法,其特征在于,所述步骤3具体为:

步骤3.1. 输入包含人体姿态的静态图像,利用步骤2.3训练好的CPN模型对输入图像中的人体进行人体关键点检测,得到其二维姿态数据;

步骤3.2. 对步骤3.1得到的二维姿态数据进行归一化预处理;

步骤3.3. 将预处理后的二维人体姿态数据输入到步骤2.6训练好的MulitBA_GCN三维人体姿态识别模型中进行三维人体姿态识别,输出人体的三维姿态数据。

10.根据权利要求9所述的三维人体姿态估计方法,其特征在于,所述步骤3.1中得到的二维姿态数据是20×2的人体关节点特征数据;其中,人体关节点特征数据中20表示关节点个数,2表示x、y坐标值;

所述步骤3.2中,对得到的数据进行归一化预处理的具体过程如下:首先取20个节点中的16个关节数据,去除不重要关节坐标;其次,去中心化,所有关节点坐标都减去第一个关节点坐标,第一个关节点为人体骨骼中心,相当于坐标平移到图像中心;最后,得到预处理后的16×2的二维姿态数据;

所述步骤3.3中,MulitBA_GCN三维人体姿态识别模型输出人体16×3的三维姿态数据。