欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2019108889929
申请人: 华侨大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种结合DenseNet和resBi‑LSTM的中文句子级唇语识别方法,其特征在于,包括以下步骤:

步骤一,视觉特征提取:

拼音预测模型的输入是唇部图片序列,假设该输入序列为:时间T×高度H×宽度W,先使用时空卷积提取时空特征,捕获唇部区域短时的运动特征,该部分的使用64个5T×7H×

7W大小的三维卷积核,卷积层后紧跟着Batch Normalization和Rectified Linear Units,得到的三维特征图经过三维最大池化层减小其空间大小;经过这部分网络,得到大小的tensor;

随后是二维的DenseNet进一步提取序列的唇部区域特征;这里采用的DenseNet是121‑layer的版本;并且只使用其中的稠密块和过渡层;稠密块网络中的每一层都直接与其前面层相连,且在稠密块中的Bottleneck层,在3x3的卷积之前加入1x1的卷积,过渡层在每两个稠密块之间,为了进一步减少特征图的数量,提升模型的紧凑程度;经过DenseNet网络,tensor的大小为

随后,在空间维度上使用自适应平均池化,对每一个唇部输入图片得到一个1024维的向量;这就是提取得到的视觉特征;

步骤二,特征序列处理:

对于特征序列的处理,是为了得到其中的语义信息;在这一步使用双向LSTM;在双向LSTM之上加入了shortcut connection,命名为残差双向LSTM;在此使用加法操作,将视觉信息在每一层地双向LSTM中传播,在此网络中,双向LSTM的隐藏层节点数设置为256,由于是双向的,所以输出向量的维度应为512维;加法操作要求相加的两个向量维度一致,因此,在resBi‑LSTM层前,需要将特征的维度降到需要的512维;使用1×1卷积进行降维操作,1×

1卷积可以保留特征中的空间信息;通过这部分网络,最终每一个唇部图片帧得到512维的向量;

步骤三,时序数据分类:

在得到512维的特征向量后,需要对每一帧的结果进行分类;使用全连接和SoftMax进行分类;在训练阶段,使用CTC损失进行训练,CTC损失函数的计算公式如下:Lctc=‑ln(pctc(y|x))#(2)其中,T是输入序列的长度, 表示输出标签wt的SoftMax概率,且在时间t,w=(w1,w2,…,wT)是一条序列的CTC路径,y是真实值,表示可以映射到标签y的所有CTC路径集合;

在测试阶段,使用CTC的prefix beam decode进行序列的解码,得到拼音预测序列;

步骤四,语言翻译模型:

在这一步,需要将上述步骤得到的拼音序列翻译为最终需要的汉字序列;首先使用词嵌入将拼音映射为512维的词向量,拼音的位置信息以正弦函数的形式在固定位置嵌入,以此作为网络的输入,并且该输入同时作为网络的query,key和value;本发明使用6层堆叠的multi‑head attention和feed forward,紧跟着一层全连接层,并使用交叉熵损失训练从拼音到汉字的语言翻译模型;在测试的时候,直接选取全连接层输出值最大的作为最终结果。