欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2021107734326
申请人: 天津理工大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种多层时序注意力融合机制的弱监督神经网络手语识别方法,其特征在于,包括以下步骤:

1)一个手语视频V,含有(f1,...fu)的视频帧,对于连续手语识别任务,神经网络学习条件概率P(G/V)用来生成手语识别序列G(g1,...gn),对于连续手语翻译任务网络学习条件概率P(L/G)用来生成自然语言序列L(l1,....lu);

利用opencv库将每一个手语视频数据进行均匀随机的帧采样,从而保证每个手语视频的帧数一致,对手语视频的语料标签句子进行分词并利用python编程语言为每一个手语视频自动打上标注;

2)将按规定大小的批次数量的手语视频按帧传入神经网络的编码器部分,首先经过预训练的卷积神经网络模块,对每一个手语视频帧进行特征提取,再经过两层残差全连接层,从而能得到有效的姿态信息,作为网络的空间嵌入:Su=SpatialEmbedding(fu)                        (1)其中fu代表手语视频帧,Su是经过卷积网络特征提取后的空间嵌入向量;

手语视频的空间嵌入向量包含丰富的特征信息,将空间嵌入向量输入下一个模块双向门控循环网络当中,门控循环网络能够对时间维度的手语视频帧序列数据进行有效的特征建模,通过前向和后向的双向建模方式获得手语动作上下文信息Bu,将Bu经过三层残差堆叠单向门控循环网络得到更高维的抽象信息Eu;

经过上述操作,神经网络编码器部分将手语视频经过时空编码得到隐藏向量hu,并将hu传递到神经网络的解码器部分当中,解码器网络结合hu向量和通过多层时序注意力机制融合得到的Cmix向量,在多层残差门控循环网络的每一个时间步得到手语识别的单词,并最终结合成一个完整的手语句子;

其中多层时序注意力机制融合向量包含如下步骤:首先计算一个分数,将解码器每个时间步前一步的隐藏向量hn‑1作为查询项,用查询项hn‑1分别和EU和Bu进行运算得到两个分数向量score1和score2如下:T

score1(hn‑1,Eu)=EuWhn‑1                       (2)T

score2(hn‑1,Bu)=BuDhn‑1                       (3)使用上面分值函数来得到的两个score,其中W和D都是可训练的神经网络权重参数,接着利用score得到手语视频时序注意力权重r和p,用来对齐手语视频帧和单词,其运算如下:其中k代表编码器网络时序维度上的第k个时间步,n代表解码器网络时序维度上第n个时间步,然后将得到的手语视频时序注意力权重r和p分别和Eu和Bu进行运算,得到两个手语注意力背景向量Ct和Cb,运算如下:然后将Ct和Cb这两个背景向量进行融合,得到Cmix,运算如下:

这个注意力背景向量称之为手语序列上下文融合向量Cmix;

3)在解码阶段,首先从输入符号开始,符号作为每次网络训练的开始符号,输入解码器网络的第一个时间步,同时将Cmix和手语嵌入词汇进行拼接,输入当前时间步的解码器中,经过解码器四层堆叠残差结构的门控循环网络的非线性运算后得到输出,再经过一层全连接层生成当前时间步的最大概率的单词,一直循环解码直到遇到符号结束,一个完整的手语识别句子生成完毕。

2.如权利要求1所述的多层时序注意力融合机制的弱监督神经网络手语识别方法,其特征在于,语言模型生成符合口语表述的自然语言文本,使用Tranformer作为语言模型来进行语言学习,从而进一步得到连续手语翻译的结果,在Transformer结构中,将原本静态的位置编码更改为了动态的可训练的位置编码。

3.如权利要求1或2所述的多层时序注意力融合机制的弱监督神经网络手语识别方法,其特征在于,语言模型使用pytorch深度学习框架搭建,配置网络参数设置如下:在编码器网络的空间嵌入模块中,使用在Imagenet上进行预训练的卷积神经网络,冻结卷积神经网络上的全部参数;使用了resnet152预训练卷积网络,并使用其倒数第二层的输出或最后一层的输出,在预训练的卷积神经网络后面,添加了两层2600维度的可训练的残差全连接层,并且为了能够和后面的双向门控循环单元模块的输出进行残差连接;编码器的双向门控循环单元的隐藏单元设置为了1300维度,因为拼接了过去和未来的信息,所以输出是2600维度,之后的每一层门控循环网络隐藏单元维度也都设置为2600,从而可以进行残差连接;在解码器阶段,将手语单词的词嵌入维度设置为256,解码器中的每个门控循环网络隐藏单元维度设置为800。

4.如权利要求3所述的多层时序注意力融合机制的弱监督神经网络手语识别方法,其特征在于,训练过程中采用pytorch默认的Adam优化器和交叉熵损失函数,每个batch设置为10,学习率的设置分为两个阶段,第一个阶段使用0.00004进行,在第8个epoch后,将学习率调整为0.000004继续进行训练6个epoch,完成神经网络参数的收敛。