欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2021107920809
申请人: 中国矿业大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于模态匹配的连续手语语句识别方法,其特征在于,步骤如下:步骤S1、采集M个彩色视频模态的手语视频,100<M<10000,使用TV‑L1算法对彩色视频模态的手语视频的光流信息进行提取,并形成帧数相同的光流图像序列,提供光流视频模态的手语视频;采用CNN对上述两种模态的每个手语视频的关键帧分别进行提取,对应得到像素大小为h×b、关键帧均匀采样至N帧的两种模态的关键帧手语视频,10<N<100,在得到的两种模态的关键帧手语视频中各选取m个相对应的视频构成训练集,100<m<M,两种模态的关键帧手语视频中剩余的视频构成测试集;

步骤S2、构建基于模态匹配的连续手语语句识别模型:所述基于模态匹配的连续手语语句识别模型包括手语关键帧片段时空特征提取网络、多模态潜在语义空间映射网络和编解码网络:采用基于时间自适应的CNN,即TANet,作为手语关键帧片段时空特征提取网络:首先经过一个标准卷积操作,再通过13个TAM‑DW Conv卷积模块,最后输入到全连接层之后进行平均池化汇总;

多模态潜在语义空间映射网络使用了One‑Hot编码并利用了线性投影函数构成潜在语义空间;

编解码网络包括双层LSTM和注意力网络;

步骤S3、在训练集中抽取V组两种模态的关键帧手语视频分别对手语关键帧片段时空特征提取网络、多模态潜在语义空间映射网络和编解码网络训练得到初始权重,再输入全部训练集对基于模态匹配的连续手语语句识别模型进行训练;其中,手语关键帧片段时空特征提取网络将用于有效提取彩色视频和光流视频模态的关键帧手语视频片段的时空特征;多模态潜在语义空间映射网络将提取到的两种模态的关键帧手语视频片段的时空特征和利用One‑Hot编码得到的词语序列向量映射到相同的潜在语义空间中;编码网络用于学习两种模态的关键帧手语视频片段的长期时空特征并输入解码网络,解码网络将潜在语义空间中的时空特征与词语序列向量匹配对齐;即获得训练好的连续手语语句识别模型;

步骤S4、利用测试集对训练好的基于模态匹配的连续手语语句识别模型进行测试,得到连续手语语句识别准确性。

2.根据权利要求1所述的基于模态匹配的连续手语语句识别方法,其特征在于,步骤S2中,在构建手语关键帧片段时空特征提取网络时,将手语视频的关键帧序列划分为若干个片段作为输入,采用基于时间自适应的CNN作为手语关键帧片段时空特征提取网络;

采用轻量化的CNN模型MobileNet作为基础网络,并以时间自适应模块TAM为研究基础,手语关键帧片段时空特征提取网络,即TANet包含了嵌入MobileNet的时间特征提取模块TAM;MobileNet的基本单元为深度可分离卷积,分解为深度级卷积和点级卷积;TAM包括局部和全局两个分支,局部分支使用时间卷积操作捕获输入特征的短期时间信息,全局分支结合长期时间关系,利用局部分支的短期时间信息和全连接层自适应地聚合时间信息;将MobileNet基本单元中大小为3x3的深度级卷积层的输出作为TAM的输入特征,采用全局平均池化操作压缩输入特征图Xc,t的空间信息,计算方式如下式所示:其中,c,t,j,i分别是通道、时间、高度、宽度维度的索引, 表示输入特征的空间聚合信息,C、T、H、W分别为输入特征图的通道数、时间、高度和宽度;TAM使用时间卷积层和Relu非线性函数构建局部分支,如下式所示:其中,A是学习到的位置敏感的重要度图,C为输入特征的通道数,δ为Relu激活函数,Conv1D为时间卷积操作,包含的参数为输入特征 卷积核大小B、输入特征的通道数C;其中首个Conv1D后紧跟一个BN层,将通道数量降低为C/β,β表示通道的缩放倍数,第二个Conv1D后面跟着一个Sigmoid函数,其输出为位置重要度权重;将重要度图和空间聚合特征在时域上逐元素相乘,得到激活后的特征图Z:通过复制空间维度,将Z的大小缩放为 所得到的 即短期时间特征图;

全局分支中则结合长期时间信息,为每个视频片段产生一个动态卷积核,并通过卷积操作聚合时间信息,逐通道学习自适应卷积核与输入特征图进行卷积;在第c个通道,所学习自适应卷积核表示为:

K

其中,Θc∈R是学习到的第c个通道的自适应卷积核,K为自适应卷积核大小,W1、W2为权重,σ表示tanh函数;自适应卷积核根据压缩特征图 学习而来,通过全连接层对长期时间关系进行学习;全局分支堆叠两个全连接层,增强对长期时间关系的建模能力,最后使用SoftMax函数对自适应卷积核进行归一化操作,生成聚合权重Θ=(Θ1,Θ2,...,ΘC,);

将产生的聚合权重以卷积的形式对时间信息进行卷积操作,得到特征在时域上的关系,具体过程如下式所示:

C×T×H×W

则Y∈R 则为时间卷积后的特征图,即短期时间特征图,将Y作为TAM模块输出特征,通过BN层和Relu层之后,输入到1x1卷积层中;

对关键帧片段提取时空特征时,使用的网络结构与MobileNet一样,首先使用一个标准卷积,然后嵌入TAM后形成深度可分离卷积模块;在使用TAM时,根据手语视频的特点将关键帧平均划分为D个片段作为输入;每个片段输入到TANet中,首先经过一个标准卷积操作,再通过TAM‑DW Conv卷积模块得到时空特征图;输入到全连接层之后对N帧的分数进行平均池化汇总,得到片段级别的分数;

假设视频输入的彩色视频模态的手语视频关键帧片段表示为 与光流视频模态的手语视频关键帧片段 构建两路结构相同的手语关键帧片段时空特征提取网络,学习输入关键帧片段中的非线性片段时空特征:fd=TANet(kd)

其中,kd表示第d个手语视频关键帧片段,fd为第d个手语视频关键帧片段的时空特征;

每个片段输入到TANet中,首先经过一个标准卷积操作,再通过13个TAM‑DW Conv卷积模块得到同一维度大小的时空特征图;输入到全连接层之后对N帧的分数进行平均池化汇总,得到片段级别的分数;最终提取到的彩色视频和光流视频模态的手语视频关键帧片段特征序列分别表示为 利用特征融合的方式将两种模态的手语视频关键帧片段特征序列按照时间顺序进行融合,得到融合特征F=(f1,f2,...,fD)。

3.根据权利要求1所述的基于模态匹配的连续手语语句识别方法,其特征在于,步骤S2中,在基于模态匹配的连续手语语句识别模型中,采用基于多模态潜在语义空间的映射网络,引入词嵌入的思想到时空特征表示中,将每个词语之间等距的稀疏One‑Hot向量表征转换成为更密集的表征;

在语义级别的线性表示中,先使用One‑Hot编码,将与视频序列对应的词语进行编码,则用W=(w1,w2,...,wU)表示;采用一个全连接层从词语的One‑Hot向量wu学习一个线性投影函数,将其投影到与时空特征相同的密集空间,称其为潜在语义空间:w′u=wordembedding(wu)两种模态的手语视频关键帧片段特征序列的融合特征在潜在语义空间中的特征用S=(s1,s2,...,sD)表示,词语在潜在语义空间中的特征则用W′=(w′1,w′2,...,w′U)表示,U为与视频序列对应的语句中所含词语数量。

4.根据权利要求1所述的基于模态匹配的连续手语语句识别方法,其特征在于,步骤S2中,在基于模态匹配的连续手语语句识别模型中,使用编解码网络将手语关键帧片段与语义对齐,生成口语语句;

在编码阶段采用一个具有相同方向的双层LSTM作为时序建模网络,给定彩色视频和光流视频模态的手语视频关键帧片段融合特征的潜在空间语义表示S=(s1,s2,...,sD),将其时间顺序反转后以S=(sD,sD‑1,...,s1)输入到编码器中,使用双向LSTM对关键帧序列中的时间关系进行建模,第一层LSTM得到其第d个隐藏状态hd为:hd=LSTM(sd,hd+1)

其中,sd表示第d个彩色视频和光流视频模态的手语视频关键帧片段融合特征的潜在空间语义;hd+1表示第d+1个隐藏状态;

第二层LSTM每个时刻的隐藏状态则由最终的输出与上一层的隐藏状态计算而来,也就是解码网络的输出od如下:

od=LSTM(hd,od+1)

由于融合特征序列S在编码网络中为倒序输入,hd+1则为上一片段的输出状态;设hD+1为零向量,双层LSTM在第一个片段的输出作为最终的LSTM单元隐藏状态,将其输入到解码器中的LSTM单元,作为最终的潜在语义片段时空特征向量,记为hs;

在解码阶段,仍然构建一个双层LSTM作为将片段时空特征向量与词语特征向量匹配的对齐网络模型;将编码器中输出的特征向量作为输入,对解码器网络的LSTM的最终隐藏单元状态hs进行初始化作为h′0;通过将第u‑1个潜在语义特征的隐藏层状态h′u‑1以及与先前预测的单词yu‑1对应的潜在语义特征向量w′u‑1作为输入,解码生成预测单词序列yu,并更新每个LSTM单元的隐藏状态h′u,表示为:yu,h′u=Decoder(w′u‑1,h′u‑1)通过双层LSTM输出隐藏状态向量H′=(h′1,h′2,...,h′U),在解码器中yU为句子开头的标记用SOS表示,解码器根据特征序列不断进行预测,直到预测到句子的另一个结束标记,用EOS表示,逐词生成句子,解码器将条件概率分解为有序的条件概率P(y|k):由于编码与解码网络之间的信息是互通的,则对每个单词都应用交叉熵损失函数计算误差,传播误差到编码网络中,从而更新编码网络中的网络参数;

在解码网络中加入注意力网络,使解码网络在对时空特征向量与词语序列向量进行解码时有重点的学习;

对于解码器中的每个时刻,将加权求和操作应用于编码器中的输出O=(o1,o2,...,oD),从而计算出新的上下文向量gu:为第d个片段的时空特征相对于解码网络中第u个词语的注意力权重,是根据编码器的每个单元的输出状态od和解码器的隐藏状态h′u的相似度得出的,计算方式如下:其中,score为评分函数,d′表示第d′个片段的时空特征,au代表第u个词语的注意力向量,通过将上下文向量gu和隐藏状态h′u结合求出:其中,Wsc为已学习到的权重,然后将注意力特征向量Att=(a1,a2,...,aU)输入到全连接层中,对有序条件概率进行建模,再将其au输入到解码步中,得到最终的输出序列:yu,h′u=Decoder(w′u‑1,h′u‑1,au‑1)为避免参数量过多,采用Dropout和L2正则化联合对注意力模型进行训练,则注意力模型需要训练的损失函数J(θ)即如下式所示:其中,λ是L2正则化的超参数,θ是注意力模型中的偏置向量;解码器最终根据注意力层的输出概率,使用BeamSearch对其解码,选取概率值最高的语句序列作为最终语义,用L=(l1,l2,...,lU)表示。