欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2019104262167
申请人: 青岛科技大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-02-23
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种手语识别方法,其特征在于,包括:

根据手语视频形成视频序列X;

对所述视频序列X进行基于频域变换的图像处理,提取出相位信息;

将所述相位信息和视频序列X分别送入C3D卷积神经网络进行一次卷积,并对卷积后得到的特征进行加权融合,形成融合后的特征信息;

将所述融合后的特征信息送入3D ResNets深度卷积神经网络进行二次卷积和池化,并在池化过程中执行自适应学习池化算法,筛选出目标特征向量,送入3D ResNets深度卷积神经网络的全连接层,输出分类结果。

2.根据权利要求1所述的手语识别方法,其特征在于,所述自适应学习池化算法包括:根据二次卷积之后生成的特征矩阵Fn,求取Fn的互协方差矩阵Qn;

对互协方差矩阵Qn进行池化降维,形成降维后的特征向量;

将t帧时刻降维后的特征向量表示为 计算t+1帧时刻降维后的特征向量的重要性βt+1:

其中,fp为感知机算法中的预测函数;φ(xt+1)表示在所述视频序列X下,截止到t+1帧为止的降维后的特征向量;

计算t+1帧时刻的特征向量的权重ω,所述权重ω满足以下计算公式:计算每一帧时刻的特征向量的权重,选取权重最大的特征向量作为所述目标特征向量。

3.根据权利要求1所述的手语识别方法,其特征在于,在形成所述视频序列X的过程中,包括:对手语视频进行切帧;

将手语视频所对应的图像帧按照时序等分成n个片段;

从每一个片段中随机选取连续的m个图像帧,形成所述的视频序列X=(x1,x2,…,xn);

其中,xi表示第i个片段中的m个图像帧。

4.根据权利要求3所述的手语识别方法,其特征在于,在形成所述视频序列X的过程中,具体包括:将每一个手语视频切为N帧,N≥34,并将前f帧和后f帧作为冗余帧进行剔除,保留中间的关键帧,所述f≤5;

将所述中间的关键帧按照时序等分成三个片段;

从每一个片段中随机选取连续的至少8个图像帧,形成所述的视频序列X。

5.根据权利要求1所述的手语识别方法,其特征在于,在基于频域变换提取相位信息的过程中,采用Gabor变换提取图像帧的相位信息。

6.根据权利要求1至5中任一项所述的手语识别方法,其特征在于,在所述3D ResNets深度卷积神经网络中,其3D卷积层使用不同尺度的卷积核对不同时序位置的时序信息进行二次卷积,然后对每一个时序位置的卷积特征进行时间维度上的特征聚合,形成二次卷积之后的特征矩阵,送入池化层,进而利用所述自适应学习池化算法进行降维,以筛选出目标特征向量。

7.根据权利要求6所述的手语识别方法,其特征在于,所述3D ResNets深度卷积神经网络包括8个3D卷积层和8个池化层,所述8个3D卷积层和8个池化层相互交错;其中,每一个3D卷积层的卷积核均为3×3×3,卷积核的数量由64到512依次递增,在卷积层之后,对两路信息进行卷积层的特征融合;

每一个池化层均使用所述自适应学习池化算法进行降维,其中第二个池化层、第六个池化层、第七个池化层以及第八个池化层均使用2×2×2的窗口同时对时间维度和空间维度进行下采样,其他池化层使用1×2×2的窗口,只在空间维度上进行下采样。

8.根据权利要求7所述的手语识别方法,其特征在于,在每一个3D卷积层之后分别加入BN层。

9.根据权利要求7所述的手语识别方法,其特征在于,所述3D ResNets深度卷积神经网络还包括一个数据输入层和两个全连接层,其中,第一个全连接层包含512个神经元,通过第八个池化层输出的特征向量在此层被转化为512维的特征向量,在第八个池化层与第一个全连接层之间使用Dropout层,按0.5的概率丢弃部分神经网络单元,并利用迁移学习算法以0.1的概率冻结第八个池化层与第一个全连接层的部分连接;

第二个全连接层为密集输出层,包括与分类结果的类别数目相同的神经元,第二个全连接层中的每个神经元与第一个全连接层中的512个神经元全连接,最后经由分类器进行分类,输出所属手语类别的分类结果。

10.根据权利要求9所述的手语识别方法,其特征在于,所述3D卷积层和第一个全连接层使用ELU作为激活函数,所述第二个全连接层使用Softmax作为激活函数,优化函数使用SGD函数,损失函数为多分类交叉熵函数与自适应学习池化算法的误差之和。