1.一种基于残差网络的3DACRNN语音情感识别方法,其特征在于,包括以下步骤:S1、对语音信号进行包括预加重、加窗分帧在内的预处理;
S2、将经过步骤S1处理后的语音信号转换为二维语谱图,通过堆叠多个连续帧的语谱图的方法将二维语谱图处理成三维语谱图数据;
S3、基于残差网络的三维卷积神经网络Res3DCNN从三维语谱图中提取情感语音的短期时空特征,利用残差网络补偿传统卷积神经网络CNN在卷积过程中缺失的特征;
S4、将Res3DCNN的输出作为基于注意力机制的递归神经网络ARNN模型的输入,其中递归神经网络RNN为LSTM;LSTM的遗忘门采用后遗忘门,其中后遗忘门算法如下:ft=σ(Wf×Ct‑1+bf),
单元状态更新算法:it=σ(Wi×[ht‑1,xt]+bi)
其中Ct‑1和ht‑1分别是前一时刻的单元状态和隐藏层输出,ft表示遗忘门输出结果,it表示输入门的输入数据,xt是当前时刻的输入, 是要被添加到记忆单元的候选值,Wf、Wi和WC是分别是由训练得到的遗忘门、输入门和候选单元的权重,bf、bi和bC是它们的偏差,it是的权重系数,σ表示的是逻辑sigmoid函数:S5、使用验证集对训练后的模型进行10倍交叉验证,交叉熵作为损失函数,用RMSProp算法对模型参数进行优化;
S6、使用验证集对训练后的模型验证,调整模型中RMSProp算法的超参数,得到最终网络模型,最后利用Softmax层进行语音情感分类。
2.根据权利要求1所述的一种基于残差网络的3DACRNN语音情感识别方法,其特征在于,所述步骤S1根据语音信号的短时平稳性,对其进行包括预加重、加窗分帧在内的预处理,具体步骤如下:‑1
步骤A1:采用一阶高通滤波器即预加重滤波器,其Z域中的传递函数为H(z)=1‑az ,a表示预加重系数,取值0.95,z表示Z域的坐标值,H(z)是传递函数,预加重处理后的信号为x(t);
步骤A2:对预加重后的信号进行分帧,变为x(m,n),n为帧长,m为帧的个数,采用汉明窗进行加窗:x(m,n)表示分帧后的语音信号,w(n)表示汉明窗的窗函数,加窗分帧后语音信号为:sw(m,n)=x(m,n)*w(n),sw(m,n)表示加窗分帧后的语音信号,其中每一帧含有N个采样点。
3.根据权利要求2所述的一种基于残差网络的3DACRNN语音情感识别方法,其特征在于,所述步骤S2将处理后语音信号转换为二维语谱图,通过堆叠多张连续帧的语谱图的方法将二维语谱图处理成三维数据,其处理步骤如下:步骤B1:通过快速傅里叶变换FFT将步骤A2处理后的信号从时域数据变换到频域,得到X(m,n);
步骤B2:做周期图Y(m,n),公式为Y(m,n)=X(m,n)*X(m,n)',X(m,n)'表示X(m,n)的导数,然后取10log10Y(m,n),把m根据时间变换一下刻度M,n根据频率变化一下刻度N,利用(M,N,10log10Y(m,n))画出二维语谱图;
步骤B3:通过堆叠多个连续帧的语谱图组成一个立方体,然后在立方体中与3D卷积核进行卷积操作,这里的输入数据设置为Time×Frequency×C,Time、Frequency分别表示语谱图的横轴时间和纵轴频率,C表示语谱图的张数。
4.根据权利要求3所述的一种基于残差网络的3DACRNN语音情感识别方法,其特征在于,所述步骤S3使用设计的Res3DCNN从三维语谱图中提取情感语音的短期时空特征,残差公式为:F(x)=y‑x
其中,x是输入,y是输出,F(x)表示残差,计算时x和F(x)维度要保持一致,若不一致,则通过如下算法计算:y=wk*x+F(x)
wk表示一个权重矩阵,可以调整输入x的维度,使其与F(x)保持一致,表示设计的Res3DCNN模型由四个残差块组成,每个残差块包含4个卷积层,1个池化层,第一层的卷积核大小为1×1×1,其余三个卷积层的卷积核大小为3×3×3,池化层大小为2×2×1,步长为1×1×1,每个卷积层后加入批规范层BN和ReLU激活函数层;
BN对深度神经网络中间层激活进行归一化,算法关键在于引入了两个可学习参数γ和β:表示待进入激活函数的变量,k表示激活函数的个数,一个批次中,BN是对每个特征而言的,有m个训练样本,j个维度(j个神经元节点),对第j维进行规范化:其中, 是第i层第j维的线性计算结果,μj表示每一个小批量训练数据的均值, 表示每一个小批量训练数据的方差, 表示该批次训练数据的归一化结果,ε是为了防止方差为0;
ReLU的计算公式如下:
5.根据权利要求1所述的一种基于残差网络的3DACRNN语音情感识别方法,其特征在于,所述步骤S4改进后的ARNN模型设置BLSTM有512个双向隐藏单元,创建了一个形状为L×
1024的新序列,将其放入注意力层中,最后产生一个新的序列h。
6.根据权利要求5所述的一种基于残差网络的3DACRNN语音情感识别方法,其特征在于,所述步骤S5用训练集对模型进行训练,采用交叉熵作为损失函数,利用RMSProp算法优化目标函数,具体包括:交叉熵算法定义如下:
其中, 第j个样本的真实标签
yj:第j个样本的网络模型的预测输出,C表示损失值,
RMSprop算法的定义如下:
其中,r:梯度平方值的滑动率,w:衰减率,α:学习率,ε:防止分母为零的常数项,η:超参数,常量。
7.根据权利要求6所述的一种基于残差网络的3DACRNN语音情感识别方法,其特征在于,所述步骤S6利用Softmax层进行语音情感分类,Softmax函数的公式如下:该式表示的数组中第i元素的Softmax值,Si表示第i元素的分类概率,j表示一个累加变量。
8.一种存储介质,所述存储介质为计算机可读存储介质,其存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行如权利要求1‑7任一所述的方法。