欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020102257839
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
专利领域: 乐器;声学
更新日期:2024-02-23
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于多级残差卷积神经网络的语音情感识别方法,其特征在于,该方法包括以下步骤:

1)训练过程:

S11:收集并预处理带所有情感的声音信号,生成语谱图;

S12:构建多级残差卷积神经网络,并将语谱图输入到多级残差卷积神经网络进行训练;

2)测试过程:

S21:获取并预处理待识别声音信号,生成待识别语谱图;

S22:将待识别语谱图输入到训练好的多级残差卷积神经网络,得到识别结果。

2.根据权利要求1所述的一种基于多级残差卷积神经网络的语音情感识别方法,其特征在于,所述步骤S12或S23中,生成语谱图具体包括:声音信号经过预加重、分帧、加窗、短时傅里叶变换最终变成语谱图。

3.根据权利要求1所述的一种基于多级残差卷积神经网络的语音情感识别方法,其特征在于,所述步骤S12中,构建多级残差卷积神经网络具体包括以下步骤:S121:常将输入的语谱图转换成3个像素点矩阵;

S122:多级残差卷积神经网络的每个卷积层通过卷积核对矩阵进行遍历,得出一个卷积结果,即特征图,卷积层再经过池化层降低特征维度继续作为下一个卷积层的输入信息;

然后利用多级残差结构跨越多个卷积层将原始特征信息引入到后续卷积层实现特征补充,重复此步骤;

S23:卷积的最后结果以一维矩阵的方式输入到全连接层,全连接层对卷积结果再进行特征学习,并通过softmax进行相对概率转换,得出最终分类结果。

4.根据权利要求1所述的一种基于多级残差卷积神经网络的语音情感识别方法,其特征在于,所述步骤S12中,训练多级残差卷积神经网络具体包括:采用交叉熵损失函数对真实的样本和预测样本的偏差进行描述,如果偏差值较大,再通过梯度下降的方式进行反向传播,通过逐层求偏导调整参数的值,直至交叉熵的值趋近于零,即模型拟合。

5.根据权利要求3所述的一种基于多级残差卷积神经网络的语音情感识别方法,其特征在于,所述步骤S122中,所述多级残差结构为:假设引出残差时的输入是xi,引入残差后的输出是xi+n,则有多级残差结构的输出为:xi+n=σ(wi+nF(xi+n-1)+bi+n+αxi)其中,σ为激活函数,n为多级残差结构跨越的卷积层数,w和b分别为每个卷积层的权值和偏置,α和β是控制系数,用于限制输入特征的维度。

6.根据权利要求4所述的一种基于多级残差卷积神经网络的语音情感识别方法,其特征在于,所述交叉熵损失函数C为:其中 表示1到K的标签,y(L)是网络模型的输出;

则反向传播的权值更新为:

其中,xi是引出残差时的输入是,xi+n是引入残差后的输出,T(w,b)是权值和偏置的常数项; 表示对丢失特征的补充项。

7.根据权利要求4所述的一种基于多级残差卷积神经网络的语音情感识别方法,其特征在于,所述梯度下降方式采用RMSProp算法,其自适应全参数为:其中,r为梯度平方值的滑动率,w'为衰减率,α为学习率,ε、η为常数。