知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13095918853 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13095918853

知嘟嘟经纪人

结合DenseNet和resBi-LSTM的中文句子级唇语识别方法

￥38400

专利号： 2019108889929

申请人：华侨大学

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2024-01-05

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种结合DenseNet和resBi‑LSTM的中文句子级唇语识别方法，其特征在于，包括以下步骤：

步骤一，视觉特征提取：

拼音预测模型的输入是唇部图片序列，假设该输入序列为：时间T×高度H×宽度W，先使用时空卷积提取时空特征，捕获唇部区域短时的运动特征，该部分的使用64个5T×7H×

7W大小的三维卷积核，卷积层后紧跟着Batch Normalization和Rectified Linear Units，得到的三维特征图经过三维最大池化层减小其空间大小；经过这部分网络，得到大小的tensor；

随后是二维的DenseNet进一步提取序列的唇部区域特征；这里采用的DenseNet是121‑layer的版本；并且只使用其中的稠密块和过渡层；稠密块网络中的每一层都直接与其前面层相连，且在稠密块中的Bottleneck层，在3x3的卷积之前加入1x1的卷积，过渡层在每两个稠密块之间，为了进一步减少特征图的数量，提升模型的紧凑程度；经过DenseNet网络，tensor的大小为

随后，在空间维度上使用自适应平均池化，对每一个唇部输入图片得到一个1024维的向量；这就是提取得到的视觉特征；

步骤二，特征序列处理：

对于特征序列的处理，是为了得到其中的语义信息；在这一步使用双向LSTM；在双向LSTM之上加入了shortcut connection，命名为残差双向LSTM；在此使用加法操作，将视觉信息在每一层地双向LSTM中传播，在此网络中，双向LSTM的隐藏层节点数设置为256，由于是双向的，所以输出向量的维度应为512维；加法操作要求相加的两个向量维度一致，因此，在resBi‑LSTM层前，需要将特征的维度降到需要的512维；使用1×1卷积进行降维操作，1×

1卷积可以保留特征中的空间信息；通过这部分网络，最终每一个唇部图片帧得到512维的向量；

步骤三，时序数据分类：

在得到512维的特征向量后，需要对每一帧的结果进行分类；使用全连接和SoftMax进行分类；在训练阶段，使用CTC损失进行训练，CTC损失函数的计算公式如下：Lctc＝‑ln(pctc(y|x))#(2)其中，T是输入序列的长度，表示输出标签wt的SoftMax概率，且在时间t，w＝(w1，w2，…，wT)是一条序列的CTC路径，y是真实值，表示可以映射到标签y的所有CTC路径集合；

在测试阶段，使用CTC的prefix beam decode进行序列的解码，得到拼音预测序列；

步骤四，语言翻译模型：

在这一步，需要将上述步骤得到的拼音序列翻译为最终需要的汉字序列；首先使用词嵌入将拼音映射为512维的词向量，拼音的位置信息以正弦函数的形式在固定位置嵌入，以此作为网络的输入，并且该输入同时作为网络的query,key和value；本发明使用6层堆叠的multi‑head attention和feed forward，紧跟着一层全连接层，并使用交叉熵损失训练从拼音到汉字的语言翻译模型；在测试的时候，直接选取全连接层输出值最大的作为最终结果。