欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2018107770975
申请人: 杭州电子科技大学
专利类型:发明专利
专利状态:已下证
专利领域: 乐器;声学
更新日期:2023-08-24
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于深度卷积神经网络的外部语料库语音识别方法,其特征在于包括如下步骤:步骤1、获取语音标注数据和互联网语料库

1-1.所述的语音标注数据为一段话的录音数据,通过人工提取的方式对语音标注数据进行解析,获取该语音标注数据对应的汉字序列、拼音序列和音素序列;

1-2.每个汉字都有拼音,而一个拼音可能对应多个汉字;具体的:将一个拼音拆分成声母和韵母;同理的,再将声韵母拆分成音素,多个音素对应一个声韵母;

1-3.获取该语音标注数据时,必须符合如下约束:首先,根据语音信号数据,标注对应的汉字序列数据;

然后,对汉字序列进行逐字注音;

最后,将每个拼音拆分成音素;

其中,语音标注数据为输入数据,汉字序列、拼音序列、音素序列为输出数据;

所述的互联网语料库为现有的公开的数据库;

步骤2、利用语音标注数据的平均能量对该语音标注数据进行清洗;

步骤3、对语音标注数据进行特征抽取和标准化;

步骤4、构建神经网络模型;

步骤5、将待测试的语音数据输入构建的神经网络模型,完成识别后输出识别文本数据;

步骤2所述的利用语音标注数据的平均能量对该语音标注数据进行清洗,具体实现如下:

2-1.计算语音标注数据的平均能量,语音标注数据的平均能量的计算公式;

其中,x为语音信号数据,x(m)为语音信号数据的第m个采样点,采样率n使用16000;N为窗大小,取值为320;

2-2.清洗语音标注数据信号中的静音部分;

步骤3所述的对语音标注数据进行特征抽取和标准化,具体实现如下:

3-1.对清洗后的语音标注数据进行预加重、分帧、加窗的操作,计算梅尔频率倒谱系数特征;对当前帧中M个点的梅尔频率倒谱特征进行描述并整合,将整合后的描述集合作为当前帧的梅尔频率倒谱特征集;

3-2.再将当前帧的前三帧和后三帧的梅尔频率倒谱特征集进行组合,组合生成当前帧的基本特征;

3-3.由于梅尔频率倒谱特征的数值差异大,因此需要对训练集中的每一个基本特征计算其均值和方差,并对每一个基本特征进行标准化,具体实现如下:其中,ft,i表示第i个基本特征在t时刻的取值; 为第i个基本特征在所有时刻上的均值;σi表示第i个基本特征在所有时刻上的方差; 为第i个基本特征标准化后在t时刻的取值;

步骤4所述的构建神经网络模型,具体实现如下:

所需构建的神经网络模型:维数为40*7的输入块,由特征数为27,54,108构成的3层卷积块、步长为2的最大值池化,特征数为108,216的2层卷积块;

所述卷积块为1*3,3*1,1*5,5*1,1*1二维卷积构成;由特征数为512,512,256,256,256构成的5层核大小为3的一维全卷积、隐节点数为256的3层BiLSTM构成的时序特征提取块;

由节点数为70的音素输出层、节点数为1170的拼音输出层、节点数为6500的汉字输出层构成的输出模块;

将构建的神经网络模型采用leaky relu激活函数,静态特征提取块和时序特征提取块中的各层均有resnet残差学习连接,加速训练速度。

2.根据权利要求1所述的一种基于深度卷积神经网络的外部语料库语音识别方法,其特征在于步骤3所述的M为40。