1.基于多模态特征与对抗学习的跨域人体动作识别方法,其特征在于,包括以下步骤:S1:输入RGB和Depth帧序列;
S101:从有标签的源域与无标签的目标域数据集中输入RGB视觉模态帧序列数据Xv,i,源域样本数为Ns,目标域样本数为NT,i=1,2,…,Ns∪T,源域数据对应的标签为yj,j=1,
2,…,Ns;
S102:从源域与目标域中输入RGB模态对应的Depth模态帧序列数据Xd,i;
S2:帧级特征提取:
帧级特征提取模块由通用特征提取子网络和动作识别特定任务特征变换子网络组成,从输入的帧序列中提取RGB帧级特征Gv(Xv,i),Depth帧级特征Gd(Xd,i),其中,Gv(·)和Gd(·)分别表示RGB和Depth特征提取模块;
S3:特征时‑空聚集:
沿时间维度对提取的空间帧级特征进行均值池化聚集,形成视频级RGB特征和视频级Depth特征 为第i个视频样本的第t个等间隔采样帧,τ=5为对每个样本的等间隔采样帧数;
S4:RGB域适配对抗学习模块:
域适配对抗学习模块的输出来计算RGB域对抗损失 CE(·,·)为交叉熵损失函数,di为领域标签,当fv,i来自源域时di=0,当fv,i来自目标域时di=1;
S5:Depth域适配对抗学习模块:
域适配对抗学习模块的输出来计算Depth域对抗损失S6:模态判别性选择融合:
S601:域适配对抗学习模块针对源域中的样本数据,对RGB特征和Depth特征分别学习一个模态判别性加权权值矩阵Wv和Wd;
S602:对两种模态的特征进行加权后串接,形成融合后的特征fi=[σ(Wv[fv,i;fd,i])⊙fv,i;σ(Wd[fv,i;fd,i])⊙fd,i],σ(x)为Sigmoid函数,⊙为对应元素相乘;
S7:分类器:
从分类器的分类预测结果中计算有标签的源域样本数据的分类损失S8:训练基于多模态特征与对抗学习的跨域人体动作识别模型:S801:计算模型的训练损失L=Lc‑αLv‑βLd,α,β的值均设置为0.75;
S802:利用随机梯度下降算法训练特征变换子网络、域适配对抗学习模块、模态判别性选择融合模块和分类器;
S9:对目标域中的数据进行分类:
T
S901:将目标域中的待分类样本X的RGB模态数据 和Depth模态数据 分别输入到各自的帧级特征提取器中,得到帧级特征 和S902:对帧级特征分别进行时‑空聚集,得到视频级特征 和 随后输入到模态判别性选择融合模块,形成融合后的特征T
S903:将f输入到分类器中,得到最终的分类结果。
2.根据权利要求1所述的基于多模态特征与对抗学习的跨域人体动作识别方法,其特征在于,所述步骤S2中帧级特征提取的网络结构及参数如下:通用特征提取子网络为ResNet‑101残差网络,并去掉平均池化层后的分类层,对每帧图像提取2048维特征向量;动作识别特定任务特征变换子网络由一个全连接层构成,输出特征维度为256维;其中,RGB模态分支与Depth模态分支均采用相同的网络结构及参数设置。
3.根据权利要求2所述的基于多模态特征与对抗学习的跨域人体动作识别方法,其特征在于:所述域适配对抗学习模块包括梯度反转层、域判别层和批归一化层。
4.根据权利要求3所述的基于多模态特征与对抗学习的跨域人体动作识别方法,其特征在于:所述域判别层由一个全连接层构成,输入特征维度为256维,输出特征维度为2维。
5.根据权利要求2所述的基于多模态特征与对抗学习的跨域人体动作识别方法,其特征在于,所述步骤S7的分类器由一个全连接层构成,输入特征维度为512维,输出特征维度为C维,其中,C为类别数。