1.一种基于深度卷积神经网络的外部语料库语音识别方法,其特征在于包括如下步骤:步骤1、获取语音标注数据和互联网语料库
1-1.所述的语音标注数据为一段话的录音数据,通过人工提取的方式对语音标注数据进行解析,获取该语音标注数据对应的汉字序列、拼音序列和音素序列;
1-2.每个汉字都有拼音,而一个拼音可能对应多个汉字;具体的:将一个拼音拆分成声母和韵母;同理的,再将声韵母拆分成音素,多个音素对应一个声韵母;
1-3.获取该语音标注数据时,必须符合如下约束:首先,根据语音信号数据,标注对应的汉字序列数据;
然后,对汉字序列进行逐字注音;
最后,将每个拼音拆分成音素;
其中,语音标注数据为输入数据,汉字序列、拼音序列、音素序列为输出数据;
所述的互联网语料库为现有的公开的数据库;
步骤2、利用语音标注数据的平均能量对该语音标注数据进行清洗;
步骤3、对语音标注数据进行特征抽取和标准化;
步骤4、构建神经网络模型;
步骤5、将待测试的语音数据输入构建的神经网络模型,完成识别后输出识别文本数据;
步骤2所述的利用语音标注数据的平均能量对该语音标注数据进行清洗,具体实现如下:
2-1.计算语音标注数据的平均能量,语音标注数据的平均能量的计算公式;
其中,x为语音信号数据,x(m)为语音信号数据的第m个采样点,采样率n使用16000;N为窗大小,取值为320;
2-2.清洗语音标注数据信号中的静音部分;
步骤3所述的对语音标注数据进行特征抽取和标准化,具体实现如下:
3-1.对清洗后的语音标注数据进行预加重、分帧、加窗的操作,计算梅尔频率倒谱系数特征;对当前帧中M个点的梅尔频率倒谱特征进行描述并整合,将整合后的描述集合作为当前帧的梅尔频率倒谱特征集;
3-2.再将当前帧的前三帧和后三帧的梅尔频率倒谱特征集进行组合,组合生成当前帧的基本特征;
3-3.由于梅尔频率倒谱特征的数值差异大,因此需要对训练集中的每一个基本特征计算其均值和方差,并对每一个基本特征进行标准化,具体实现如下:其中,ft,i表示第i个基本特征在t时刻的取值; 为第i个基本特征在所有时刻上的均值;σi表示第i个基本特征在所有时刻上的方差; 为第i个基本特征标准化后在t时刻的取值;
步骤4所述的构建神经网络模型,具体实现如下:
所需构建的神经网络模型:维数为40*7的输入块,由特征数为27,54,108构成的3层卷积块、步长为2的最大值池化,特征数为108,216的2层卷积块;
所述卷积块为1*3,3*1,1*5,5*1,1*1二维卷积构成;由特征数为512,512,256,256,256构成的5层核大小为3的一维全卷积、隐节点数为256的3层BiLSTM构成的时序特征提取块;
由节点数为70的音素输出层、节点数为1170的拼音输出层、节点数为6500的汉字输出层构成的输出模块;
将构建的神经网络模型采用leaky relu激活函数,静态特征提取块和时序特征提取块中的各层均有resnet残差学习连接,加速训练速度。
2.根据权利要求1所述的一种基于深度卷积神经网络的外部语料库语音识别方法,其特征在于步骤3所述的M为40。