欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2021108000989
申请人: 中国矿业大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于注意力的连续手语语句识别方法,其特征在于,步骤如下:步骤1、采集M个彩色视频模态的手语视频,100<M<10000,使用TV‑L1算法对彩色视频模态的手语视频的光流信息进行提取,并形成帧数相同的光流图像序列,提供光流视频模态的手语视频;采用CNN对上述两种模态的每个手语视频的关键帧分别进行提取,对应得到像素大小为h×b、关键帧均匀采样至N帧的两种模态的关键帧手语视频,10<N<100,在得到的两种模态的关键帧手语视频中各选取m个相对应的视频构成训练集,100<m<M,两种模态的关键帧手语视频中剩余的视频构成测试集;

步骤2、使用两个相同结构的I3D网络分别提取两种模态的关键帧手语视频的关键帧序列的时空特征,对应得到测试集对应的关键帧序列的时空特征和训练集对应的关键帧序列的时空特征;

步骤3、构建基于注意力的连续手语语句识别模型:基于注意力的连续手语语句识别模型包括基于注意力的双模态编码网络和基于CTC的解码网络;基于注意力的双模态编码网络分为两路且结构相同,每路均包括BLSTM与注意力网络相结合的模型;基于CTC的解码网络包括LSTM、内在映射层和CTC损失层;

步骤4、将训练集对应的关键帧序列的时空特征送入基于注意力的双模态编码网络,通过BLSTM提取高层时空特征,并利用注意力网络为其分配注意力,得到分配过注意力权重的融合特征序列;基于CTC的解码网络使用LSTM对基于注意力的双模态解码网络输出的融合特征序列进行时序建模,再通过内在映射层生成每个视频关键帧的概率分布,最后使用CTC损失层根据概率分布计算得到实际语义的后验概率,得到最终的语义序列,即获得训练好的连续手语语句识别模型;

步骤5、将测试集对应的关键帧序列的时空特征序列,输入在训练好的基于注意力的连续手语语句识别模型,输出识别出的连续手语语句,测试模型准确率。

2.根据权利要求1所述的一种基于注意力的连续手语语句识别方法,其特征在于,步骤

3中,在基于注意力的连续手语语句识别模型中,基于注意力的双模态编码网络由两路结构相同的BLSTM与注意力网络构成,BLSTM由一组双向的LSTM神经单元组成,分为前向网络和后向网络,同时传递t时刻之前时刻与之后时刻的信息;

在t时刻,基于注意力的双模态编码网络中前向LSTM和后向LSTM的隐藏层状态分别为和 它们的隐含层单元传递信息的方向是相反的,对应的传递函数为:对应的传递函数为:

其中,ht‑1为前一时刻特征向量,ht+1为后一时刻特征向量,ft为训练集对应的关键帧序列的时空特征,U1和W1为前向网络的共享权重,U2和W2为后向网络的共享权重,b1和b2为偏置;前向LSTM和后向LSTM都通过各自的传递函数进行隐藏单元之间的特征传递,通过拼接前向LSTM层和后向LSTM层的隐藏状态,得到经过LSTM网络后在t时刻关键帧序列的高层特征:

彩色视频模态和光流模态的关键帧手语视频对应的输出高层特征序列,分别用和 表示;

在使用注意力机制时,对于每个时刻,特征为hi,其中i∈[t‑1,t+1],则根据输入特征与上一时刻输出加权向量计算hi对t时刻输出的相似度分数 计算方式如下:其中,Wa、Wb、w为权重矩阵,σ为tanh函数,ba为偏置向量,ht为t时刻输入特征,at‑1为t‑1时刻多层感知机输出特征;

对三个特征向量ht,ht‑1,ht+1的相似度进行指数归一化,归一化后的序列位置t处的注意力系数为:

其中,αt为注意力系数,0≤αt≤1, 且 将注意力系数αt作为权重,通过加权求和的方式计算at,表示为:

通过双模态编码网络分别得到彩色视频模态和光流模态的关键帧手语视频的加权特征序列,分别表示为 将其进行特征拼接后得到分配过注意力权重的融合特征序列a=(a1,a2,...,aT)。

3.根据权利要求1所述的一种基于注意力的连续手语语句识别方法,其特征在于,步骤

3中,在基于注意力的连续手语语句识别模型中,使用LSTM和CTC损失层组成基于CTC的解码网络;将融合特征序列a作为LSTM的输入,对两个模态的特征序列进一步整合,并与时间关系建模,通过LSTM得到新的特征序列gt表示为:gt=LSTM(at‑1,at)其中,at为t时刻多层感知机输出特征;

采用CTC损失层进行训练:首先使用一个由SoftMax函数组成的内在映射层,将解码器的LSTM层每个时刻的输出特征gt映射为分布概率 其中,K为手语词典元素表所含元素个数;再通过CTC损失层,根据每个视频关键帧的分布概率计算得到实际语义的后验概率;

采用通用损失函数训练L个标签的目标词典时,将产生|L|个输出;在基于CTC的解码网络中引入空白标签并创建拓展词典序列L′=L∪{},并定义一个拓展词典序列π和目标标签序列l之间的映射函数,映射函数B表示为:T U

B:L′→L ,(U≤T)

T U T U

其中,π∈L′,l∈L ;L′为包含空白标签的拓展词典序列,其长度为T,L为将LT

′中去除重复标签与空白标签后的语义标签序列,U为折叠后语句中语义标签数量;

当CTC损失层的输入序列为解码器中LSTM输出的特征序列g=(g1,g2,...,gT),定义一‑1

个逆映射函数B ,它生成所有可能与目标标签序列l相对应的拓展词典序列π,那么给定输入特征序列a对应于标签序列l的概率为:根据输出序列的概率分布P(l|K),调整模型参数使得P(l|K)最大;根据前后向算法计算得到CTC损失函数:

LCTC=‑ln(P(l|a))使用梯度下降法对网络进行训练,并计算CTC损失函数的梯度;获得CTC的损失函数与梯度之后,然后对其解码,用公式表示为:y(a)=arg max P(l|a)找到输出序列的概率分布中概率最大的路径后,输出对应序列找到最佳输出序列W=(w1,w2,...,wU),其中U为每个连续手语语句视频包含的词语数量。