知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13336804447 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13336804447

知嘟嘟经纪人

一种基于残差网络的3DACRNN语音情感识别方法及存储介质

￥17000

专利号： 2020105970122

申请人：重庆邮电大学

专利类型：发明专利

专利状态：已下证

专利领域：乐器；声学

更新日期：2025-04-16

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种基于残差网络的3DACRNN语音情感识别方法，其特征在于，包括以下步骤：S1、对语音信号进行包括预加重、加窗分帧在内的预处理；

S2、将经过步骤S1处理后的语音信号转换为二维语谱图，通过堆叠多个连续帧的语谱图的方法将二维语谱图处理成三维语谱图数据；

S3、基于残差网络的三维卷积神经网络Res3DCNN从三维语谱图中提取情感语音的短期时空特征，利用残差网络补偿传统卷积神经网络(CNN)在卷积过程中缺失的特征，从而有效解决梯度消失或爆炸问题；

S4、将Res3DCNN的输出作为基于注意力机制的递归神经网络ARNN模型的输入，RNN指的是递归神经网络，对处理时序信号有很好的性能，LSTM是RNN其中的一种，但是由于冗余信息的存在，所以加了注意力机制，注意力机制可以降低无用信息的权重，提高训练速度，提取这些时空特征的长期依赖关系，改善时空关联性弱的问题；采用后遗忘门结构改进传统LSTM的遗忘门；LSTM由三个门结构组成，遗忘门、输入门、输出门，这里是对遗忘门进行了改进，针对计算量大的问题，对传统长短时记忆LSTM，一种特殊的RNN结构网络的遗忘门进行了改进，采用新的门结构，称为后遗忘门，该门结构通过减少参数来降低计算量；

S5、使用验证集对训练后的模型进行10倍交叉验证，交叉熵作为损失函数，用RMSProp算法对模型参数进行优化；

S6、使用验证集对训练后的模型验证，调整模型的超参数，得到最终网络模型，最后利用Softmax层进行语音情感分类。

2.根据权利要求1所述的一种基于残差网络的3DACRNN语音情感识别方法，其特征在于，所述步骤S1根据语音信号的短时平稳性，对其进行包括预加重、加窗分帧在内的预处理，具体步骤如下：步骤A1：采用一阶高通滤波器即预加重滤波器，其Z域中的传递函数为H(z)＝1-az-1，a表示预加重系数，取值0.95，Z表示Z域的坐标值，H(z)是传递函数，预加重处理后的信号为x(t)；

步骤A2：对预加重后的信号进行分帧，变为x(m,n)，n为帧长，m为帧的个数，采用汉明窗进行加窗：x(m,n)表示分帧后的语音信号，w(n)表示汉明窗的窗函数，加窗分帧后语音信号为：sw(m,n)＝x(m,n)*w(n)，sw(m,n)表示加窗分帧后的语音信号，其中每一帧含有N个采样点。

3.根据权利要求2所述的一种基于残差网络的3DACRNN语音情感识别方法，其特征在于，所述步骤S2将处理后语音信号转换为二维语谱图，通过堆叠多张连续帧的语谱图的方法将二维语谱图处理成三维数据，其处理步骤如下：步骤B1：通过快速傅里叶变换FFT将步骤A2处理后的信号从时域数据变换到频域，得到X(m,n)；

步骤B2：做周期图Y(m,n)，公式为Y(m,n)＝X(m,n)*X(m,n)'，X(m,n)'表示X(m,n)的导数，然后取10log10Y(m,n)，把m根据时间变换一下刻度M，n根据频率变化一下刻度N，利用(M,N,10log10Y(m,n))画出二维语谱图；

步骤B3：通过堆叠多个连续帧的语谱图组成一个立方体，然后在立方体中与3D卷积核进行卷积操作，这里的输入数据设置为Time×Frequency×C，Time、Frequency分别表示语谱图的横轴时间和纵轴频率，C表示语谱图的张数。

4.根据权利要求3所述的一种基于残差网络的3DACRNN语音情感识别方法，其特征在于，所述步骤S3使用设计的Res3DCNN从三维语谱图中提取情感语音的短期时空特征，残差公式为：F(x)＝y-x

其中，x是输入，y是输出，F(x)表示残差，计算时x和F(x)维度要保持一致，若不一致，则通过如下算法计算：y＝wk*x+F(x)

wk表示一个权重矩阵，可以调整输入x的维度，使其与F(x)保持一致，表示设计的Res3DCNN模型由四个残差块组成，每个残差块包含4个卷积层，1个池化层，第一层的卷积核大小为1×1×1，其余三个卷积层的卷积核大小为3×3×3，池化层大小为2×2×1，步长为1×1×1，每个卷积层后加入批规范层BN和ReLU激活函数层；

BN对深度神经网络中间层激活进行归一化，算法关键在于引入了两个可学习参数γ和β：表示待进入激活函数的变量，k表示激活函数的个数，一个批次中，BN是对每个特征而言的，有m个训练样本，j个维度(j个神经元节点)，对第j维进行规范化：其中，是第i层第j维的线性计算结果，μj表示每一个小批量训练数据的均值，表示每一个小批量训练数据的方差，表示该批次训练数据的归一化结果，ε是为了防止方差为0；

ReLU的计算公式如下：

5.根据权利要求4所述的一种基于残差网络的3DACRNN语音情感识别方法，其特征在于，所述步骤S4将Res3DCNN的输出作为ARNN模型的输入，提取这些时空特征的长期依赖关系，传统LSTM单元由三个门结构组成，分别是遗忘门、输入们和输出门，使用遗忘门来确定在前一时刻的单元状态中应该丢弃哪些信息，并直接参与更新单元状态，单元状态的更新算法与前一刻的隐藏层输出和当前时刻的输入有关，并将前一个时刻的单元状态作为更新当前状态的参数；

遗忘门算法：ft＝σ(Wf×[ht-1,xt]+bf)

单元状态更新算法：it＝σ(Wi×[ht-1,xt]+bi)

其中Ct-1和ht-1分别是前一时刻的单元状态和隐藏层输出，ft表示遗忘门输出结果，it表示输入门的输入数据，xt是当前时刻的输入，是要被添加到记忆单元的候选值，Wf、Wi和WC是分别是由训练得到的遗忘门、输入门和候选单元的权重，bf、bi和bC是它们的偏差，it是的权重系数，σ表示的是逻辑sigmoid函数：针对计算量大的问题，改进了传统LSTM的遗忘门，提出一种新颖的后遗忘门结构，算法如下：ft＝σ(Wf×Ct-1+bf)

修改后的Wf维度更小，因为式中没有使用xt和ht-1参与计算，减少了需要训练的参数，降低了计算量，将修改后的门结构称为后遗忘门。

6.根据权利要求5所述的一种基于残差网络的3DACRNN语音情感识别方法，其特征在于，所述步骤S4改进后的ARNN模型设置BLSTM有512个双向隐藏单元，创建了一个形状为L×

1024的新序列，将其放入注意力层中，最后产生一个新的序列h。

7.根据权利要求6所述的一种基于残差网络的3DACRNN语音情感识别方法，其特征在于，所述步骤S5用训练集对模型进行训练，采用交叉熵作为损失函数，利用RMSProp算法优化目标函数，具体包括：交叉熵算法定义如下：

其中，第j个样本的真实标签

yj：第j个样本的网络模型的预测输出，C表示损失值。

RMSprop算法的定义如下：

其中，r：梯度平方值的滑动率，w：衰减率，α：学习率，ε：防止分母为零的常数项，η：超参数，常量。

8.根据权利要求7所述的一种基于残差网络的3DACRNN语音情感识别方法，其特征在于，所述步骤S6利用Softmax层进行语音情感分类，Softmax函数的的公式如下：该式表示的数组中第i元素的Softmax值，Si表示第i元素的分类概率。j表示一个累加变量。

9.一种存储介质，所述存储介质为计算机可读存储介质，其存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行如权利要求1-8任一所述的方法。