欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2022103871827
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:授权未缴费
专利领域: 计算;推算;计数
更新日期:2025-04-02
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于多级监督图卷积的视频三维人体姿态估计方法,其特征在于,包括:获取待估计的视频数据,将视频数据输入到训练好的基于多级监督图卷积的视频三维人体姿态估计模型中,输出三维人体姿态估计结果;

基于多级监督图卷积的视频三维人体姿态估计模型的训练过程为:

S1:获取训练数据集;

S2:采用CPN检测器获取训练数据集中每个视频帧的人体二维关节坐标,根据二维关节坐标得到二维姿态序列;

S3:对二维姿态序列进行姿态校正,得到校正后的二维姿态序列;

S4:对校正后的二维姿态序列进行升维处理,得到升维后的二维姿态序列;

S5:交叉采用自适应图注意力单元和扩张时间卷积模型提取二维姿态序列的空间特征和二维姿态序列的时间特征;

S6:构建模型的多级监督损失函数;

S7:将时间特征和空间特征融合并输入到全连接层得到三维人体姿态估计结果;

S8:不断调整模型的参数,联合优化求解损失函数,对模型进行迭代训练直至多级监督损失函数收敛。

2.根据权利要求1所述的一种基于多级监督图卷积的视频三维人体姿态估计方法,其特征在于,获取人体二维关节坐标的过程包括:采用二维数据集COCO对CPN检测器进行预训练,采用三维姿态数据集Human3.6M的二维投影对CPN检测器进行微调,得到训练好的CPN检测器;

使用训练好的CPN检测器对每个视频帧进行二维姿态估计,得到每一帧的人体关节二维坐标。

3.根据权利要求1所述的一种基于多级监督图卷积的视频三维人体姿态估计方法,其特征在于,对二维姿态序列进行姿态校正包括:CPN检测器为每个帧序列中的姿态分配置信度得分,根据置信度得分加权构造损失函数,采用损失函数进行监督,当损失函数最小时,得到校正后的二维姿态序列。

4.根据权利要求3所述的一种基于多级监督图卷积的视频三维人体姿态估计方法,其特征在于,损失函数为:其中,F表示帧序列数目, 表示人体关节的可靠性,af表示地面真实二维关节横坐标,表示地面真实二维关节纵坐标,bf表示二维姿态序列中带噪声的二维横坐标, 表示二维姿态序列中带噪声的二维纵坐标。

5.根据权利要求1所述的一种基于多级监督图卷积的视频三维人体姿态估计方法,其特征在于,采用自适应图注意力单元提取二维姿态序列的空间特征的过程包括:采用动态图单元对二维姿态序列中的姿态进行处理,得到“构造图”;根据“构造图”获取一阶邻居点和二阶邻居点;根据一阶邻居点和二阶邻居点构建“构造图”的邻接矩阵,并将邻接矩阵作为图卷积的卷积核;根据图卷积的卷积核,采用“构造图”的图卷积算法提取二维姿态序列的空间特征;其中,一阶邻居点为“构造图”中与目标关节点距离为1的节点,二阶邻居点为“构造图”中与目标关节点距离为2的节点。

6.根据权利要求5所述的一种基于多级监督图卷积的视频三维人体姿态估计方法,其特征在于,图卷积算法的每一层输出可表示为:(l+1) (l)

其中,J 表示网络的第l+1层,J 表示网络的第l层,C表示通道数, 表示图卷积的卷积核,wc表示变换矩阵W中的第c行向量,Mc表示第c个通道的权重矩阵,ρ和σ分别表示Softmax和ReLU非线性激活函数。

7.根据权利要求1所述的一种基于多级监督图卷积的视频三维人体姿态估计方法,其特征在于,采用扩张时间卷积模型提取二维姿态序列的时间特征的过程包括:T

在卷积块中对二维姿态序列执行扩张因子为d=k的时间卷积,得到中间时间特征,其中,k表示奇数,T表示第T个时间卷积块;

对中间时间特征进行1×1的卷积处理,得到扩张维度后的中间时间特征;

采用批规范化、ReLU激活函数和随机失活对扩张维度后的中间时间特征进行处理,得到非过拟合的中间时间特征;将非过拟合的中间时间特征通输入到全连接层得到最终时间特征。

8.根据权利要求7所述的一种基于多级监督图卷积的视频三维人体姿态估计方法,其特征在于,采用扩张时间卷积模型提取二维姿态序列的时间特征的过程还包括:在每层卷积块中均使用最大池化实现残差连接,得到前后维度匹配的时间特征。

9.根据权利要求1所述的一种基于多级监督图卷积的视频三维人体姿态估计方法,其特征在于,模型的多级监督损失函数为:其中, 表示中间层级的损失函数,Lfinal表示网络最后一层的损失函数,Ltotal表示整个网络的损失函数,T表示时间卷积块的数量,α和β均表示平衡因子,LRef表示优化模块的损失函数,F表示输入的视频帧数,Q表示每一帧中关节的数量, 表示中间层级预测的关节位置, 表示网络级预测的关节位置, 表示关节的真实位置。

10.一种基于多级监督图卷积的视频三维人体姿态估计系统,其特征在于,包括:输入模块、二维姿态序列获取模块、网络模型加载模块、以及输出模块;

所述输入模块用于输入待估计的人体运动视频;

所述二维姿态序列获取模块用于获取输入视频序列中的二维姿态序列,并将二维姿态序列输入到网络模型加载模块中;

所述网络模型加载模块包括二维姿态校正模块、动态图注意力模块、扩张时间卷积模块以及估计模块;

所述二维姿态校正模块用于对二维姿态序列进行校正,得到校正后的二维姿态序列;

所述动态图注意力模块用于提取校正后的二维姿态序列的空间特征;

所述扩张时间卷积模块用于提取校正后的二维姿态序列的时间特征;

所述估计模块根据二维姿态序列的空间特征和二维姿态序列的时间特征得到三维人体姿态估计结果;

所述输出模块用于输出人体运动视频的三维人体姿态估计结果。