欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2019108889929
申请人: 华侨大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种结合DenseNet和resBi-LSTM的中文句子级唇语识别方法,其特征在于,包括以下步骤:步骤一,视觉特征提取:

拼音预测模型的输入是唇部图片序列,假设该输入序列为T×H×W(时间×高度×宽

度),先使用时空卷积提取时空特征,捕获唇部区域短时的运动特征,该部分的使用64个5×

7×7(时间/高度/宽度)大小的三维卷积核,卷积层后紧跟着Batch Normalization(BN)和Rectified Linear Units(ReLU),得到的三维特征图经过三维最大池化层减小其空间大小;经过这部分网络,得到 大小的tensor;

随后是二维的DenseNet进一步提取序列的唇部区域特征;这里采用的DenseNet是121-layer的版本;并且只使用其中的稠密块(Dense blocks)和过渡层(Transition layer);稠密块网络中的每一层都直接与其前面层相连,实现特征的重复利用;且在稠密块中的Bottleneck层,在3x3的卷积之前加入1x1的卷积,这减小了网络的参数量;过渡层在每两个稠密块之间,为了进一步减少特征图的数量,提升模型的紧凑程度;经过DenseNet网络,tensor的大小为 随后,在空间维度上使用自适应平均池化(adaptive average pool),对每一个唇部输入图片得到一个1024维的向量;这就是提取得到的视觉特征;

步骤二,特征序列处理:

对于特征序列的处理,是为了得到其中的语义信息;在这一步使用双向LSTM;在双向LSTM之上加入了shortcut connection,命名为残差双向LSTM(resBi-LSTM);在此使用加法操作,将视觉信息在每一层地双向LSTM中传播,所以此网络可以通过视觉信息与语义信息学习到更为复杂地特征,有助于后续拼音序列地预测;在此网络中,双向LSTM的隐藏层节点数(hidden size)设置为256,由于是双向的,所以输出向量的维度应为512维;加法操作要求相加的两个向量维度一致,因此,在resBi-LSTM层前,需要将特征的维度降到需要的512维;使用1×1卷积进行降维操作,相比于Combining.方法中的全连接层,1×1卷积可以保留特征中的空间信息;这部分空间信息在resBi-LSTM层中也有着重要的作用;通过这部分网络,最终每一个唇部图片帧得到512维的向量;

步骤三,时序数据分类:

在得到512维的特征向量后,需要对每一帧的结果进行分类;使用全连接和SoftMax进行分类;在训练阶段,使用CTC损失进行训练,CTC损失函数的计算公式如下:Lctc=-ln(pctc(y|x))#(2)

其中,T是输入序列的长度, 表示输出标签wt的SoftMax概率,且在时间t,wt∈{a,ai,an,ao,…,zun,zuo,blank};w=(w1,w2,…,wT)是一条序列的CTC路径,y是真实值(即标签),表示可以映射到标签y的所有CTC路径集合;

在测试阶段,使用CTC的prefix beam decode进行序列的解码,得到拼音预测序列;

步骤四,语言翻译模型:

在这一步,需要将上述步骤得到的拼音序列翻译为最终需要的汉字序列;首先使用词嵌入(word embedding)将拼音映射为512维的词向量,拼音的位置信息以正弦函数的形式在固定位置嵌入,以此作为网络的输入,并且该输入同时作为网络的query,key和value;本发明使用6层堆叠的multi-head attention和feed forward,紧跟着一层全连接层,并使用交叉熵损失训练从拼音到汉字的语言翻译模型;在测试的时候,直接选取全连接层输出值最大的作为最终结果。