1.基于卷积神经网络的语音识别方法,其包括以下步骤:S1:输入原始语音,对所述原始语音信号进行预处理,并进行相关变换处理;
S2:提取出反映语音信号特征的关键特征参数,形成特征矢量序列;
S3:构建声学模型;
S4:训练所述声学模型,得到训练好的声学模型;
S5:将步骤S2中得到的待识别的所述特征矢量序列输入到所述训练好的声学模型中得到识别结果;
S6:以步骤S5中得到的所述识别结果为基础进行后续的运算,即得到能够以最大概率输出该语音信号的词串,所述词串即所述原始语音被识别后的语言文字;
其特征在于:
步骤S3中采用基于DCNN网络模型为基础、以联结主义时间分类器CTC作为损失函数,构建端对端方式的所述声学模型;
所述声学模型的结构包括依次设置的多个卷积层结构、两个全连接层、CTC损失函数;
所述多个卷积层结构中第一层、第二层采用32个卷积核的卷积层提取语音特征;第三层、第四层采用64个卷积核的所述卷积层提取语音特征;第五层开始为多层连续的128个卷积核的所述卷积层提取语音更高层特征;
如果所述多个卷积层结构中所述卷积层的层数为偶数,从第一个所述卷积层开始每两个连续的所述卷积层后跟着一个池化层;如果所述多个卷积层结构中所述卷积层的层数为奇数,则从第一个所述卷积层开始每两个连续的所述卷积层后跟着一个池化层,最后三个所述卷积层连续操作后再进行一次所述池化层的池化操作;
所述多个卷积层的结构共有8层或者9层。
2.根据权利要求1所述基于卷积神经网络的语音识别方法,其特征在于:步骤S4中所述声学模型的训练公式如下:Hi= Wi* X + bi ,其中:
i=1,……k,
Hi代表第i张特征图,
Wi代表第i张特征图的权重,X代表前一层输入的特征图,bi代表第i张特征图的偏置项。
3.根据权利要求1所述基于卷积神经网络的语音识别方法,其特征在于:所述CTC损失函数为:
其中:
为softmax函数的计算公式,表示基于输入x的输出π路径的概率,表示输出label序列的概率是多少路径的概率和,x代表输入,
X = x1,x2,……xT, 代表输入序列,下标代表时间从1到T,Y = y1,y2,……yk,代表与X对应的输出,
1 2 k
yi= yi ,yi ,……,yi ,代表输出序列第i帧的条件概率分布,其中i = 1,2,……K,π表示输出路径,
μ表示输出label序列,π与μ之间是多对一的关系,B表示路径到label序列的映射关系。
4.根据权利要求1所述基于卷积神经网络的语音识别方法,其特征在于:所述卷积层的卷积核的尺寸全部设置为3×3。
5.根据权利要求1所述基于卷积神经网络的语音识别方法,其特征在于:所述池化层为
2×2的步长为2的最大池化操作。
6.根据权利要求1所述基于卷积神经网络的语音识别方法,其特征在于:步骤S2中采用语谱图作为语音特征;所述语谱图中帧长设置为25ms,帧移设置为10ms,窗函数使用汉明窗函数。