知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13336804447 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13336804447

知嘟嘟经纪人

一种基于深度卷积神经网络的外部语料库语音识别方法

面议

专利号： 2018107770975

申请人：杭州电子科技大学

专利类型：发明专利

专利状态：已下证

专利领域：乐器；声学

更新日期：2023-08-24

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种基于深度卷积神经网络的外部语料库语音识别方法，其特征在于包括如下步骤：步骤1、获取语音标注数据和互联网语料库

1-1.所述的语音标注数据为一段话的录音数据，通过人工提取的方式对语音标注数据进行解析，获取该语音标注数据对应的汉字序列、拼音序列和音素序列；

1-2.每个汉字都有拼音，而一个拼音可能对应多个汉字；具体的:将一个拼音拆分成声母和韵母；同理的，再将声韵母拆分成音素，多个音素对应一个声韵母；

1-3.获取该语音标注数据时，必须符合如下约束：首先，根据语音信号数据，标注对应的汉字序列数据；

然后，对汉字序列进行逐字注音；

最后，将每个拼音拆分成音素；

其中，语音信号数据为输入数据，汉字序列，拼音序列、音素序列为输出数据；

所述的互联网语料库为现有的公开的数据库,例如wiki中文语料库；

步骤2、利用语音信号数据的平均能量对该语音信号数据进行清洗；

步骤3、对语音标注数据进行特征抽取和标准化；

步骤4、构建神经网络模型

步骤5、将待测试的语音数据输入构建的神经网络模型，完成识别后输出识别文本数据。

2.根据权利要求1所述的一种基于深度卷积神经网络的外部语料库语音识别方法，其特征在于步骤2所述的利用语音信号数据的平均能量对该语音信号数据进行清洗，具体实现如下：

2-1.计算语音标注数据的平均能量，语音标注数据的平均能量的计算公式；

其中，x为语音信号数据，x(m)为语音信号数据的第m个采样点，实验中采样率n使用

16000；N为窗大小，实验中取值为320；

2-2.清洗语音标注数据信号中的静音部分。

3.根据权利要求2所述的一种基于深度卷积神经网络的外部语料库语音识别方法，其特征在于步骤3所述的对语音标注数据进行特征抽取和标准化，具体实现如下：

3-1.对清洗后的语音标注数据进行预加重、分帧、加窗的操作，计算梅尔频率倒谱系数特征；对当前帧中M个点的mfcc特征进行描述并整合，将整合后的描述集合作为为当前帧的mfcc特征集；

3-2.再将当前帧的前三帧和后三帧的mfcc特征集进行组合，组合生成当前帧的基本特征；

3-3.由于mfcc特征的数值差异大，因此需要对训练集中的每一个基本特征计算其均值和方差，并对每一个基本特征进行标准化，具体实现如下：其中，ft,i表示第i个基本特征在t时刻的取值；为第i个基本特征在所有时刻上的均值；σi表示第i个基本特征在所有时刻上的方差；为第i个基本特征标准化后在t时刻的取值。

4.根据权利要求3所述的一种基于深度卷积神经网络的外部语料库语音识别方法，其特征在于步骤4所述的构建神经网络模型，具体实现如下：所需构建的神经网络模型：维数为40*7的输入块，由特征数为27，54,108构成的3层卷积块、步长为2的最大值池化，特征数为108,216的2层卷积块；

所述卷积块为1*3,3*1,1*5，5*1，1*1等二维卷积构成；由特征数为512,512,256，256,

256构成的5层核大小为3的一维全卷积、隐节点数为256的3层BiLSTM构成的时序特征提取块；由节点数为70的音素输出层、节点数为1170的拼音输出层、节点数为6500的汉字输出层构成的输出模块；

将构建的神经网络模型采用leaky relu激活函数，静态特征提取块和时序特征提取块中的各层均有res连接，加速训练速度。

5.根据权利要求3或4所述的一种基于深度卷积神经网络的外部语料库语音识别方法，其特征在于步骤3所述的M为40。