1.一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法,其特征在于,包括以下步骤:S1、采集语音情感数据集,获取干净语音的语谱图数据集以及干净语音加噪后的加噪语谱图数据集;
S2、将干净语音的语谱图数据集中的干净语谱图和加噪语谱图数据集中的加噪语谱图输入基于矩阵距离的条件生成对抗网络MD-CGAN进行去噪模型的训练,得到去噪模型;
S3、利用去噪模型对加噪语谱图进行去噪处理,得到去噪语谱图;对去噪语谱图分别进行两个不同尺度的双边滤波,得到低尺度滤波图和高尺度滤波图,低尺度滤波图和高尺度滤波图相差再乘以增强系数得到去噪细节图的估计,然后与低尺度滤波图相加,得到细节增强的语谱图;
S4、引入卷积神经网络并迁移其预训练的卷积层权重参数,接着将细节增强的语谱图输入卷积神经网络中进行分类,得到分类模型;
S5、待识别语音的语谱图经过步骤S3中对语谱图的处理,得到待识别语音对应的细节增强的语谱图,并将其输入分类模型,得到语音情感分类结果。
2.如权利要求1所述的一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法,其特征在于,所述步骤S1,包括:对语音情感数据集中的每个语音信号进行分帧、加窗的预处理,然后进行短时离散傅里叶变化,得到频谱X(k):其中,N为窗长,x(n)为语音信号,w(n)为汉明窗函数,k为语音的频率,i是虚函数单位,n为时序采样点;
再以对数振幅描述来生成语谱图:
S(k,t)=20×log10|Xt(k)|
其中,X(k)为t时刻的频谱;
对语谱图按照情感类别设置相应的情感标签。
3.如权利要求2所述的一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法,其特征在于,所述步骤S2,包括:对于加噪语谱图的条件生成对抗网络CGAN的训练目标如下:
其中,D代表判决器,G表示生成器,V(D,G)表示去噪语谱图和干净的语谱图的差异程度;E为数学期望,x表示干净语谱图,pdata(x)表示干净语谱图的概率分布;z表示加噪语谱图,pz(z)为加噪语谱图的概率分布;y表示语音的情感标签,D(x|y)表示输入x和y时,判决器判定其为干净的语谱图的概率;
去噪模型的训练过程,包括以下步骤:
(1)给定生成器模型,优化判决器,判决器为一个二分类模型,用于判定输入的语谱图是干净语谱图还是加噪语谱图;
(2)在判决器取得优的情况下,训练生成器;生成器的训练目标是将输出的去噪语谱图能混淆判定器,使得判定器将去噪语谱图判定为1,即干净语谱图;
基于矩阵距离的条件生成对抗网络MD-CGAN,通过在生成器的损失函数中加入语谱图的矩阵距离参数来对语谱图的生成过程进行约束;
所述语谱图的矩阵距离参数通过计算两个语谱图整体的欧氏距离得到,将语谱图损失和对抗损失结合起来共同作为损失方程,得到改进后的损失方程如下:其中,Ig表示生成器的输出,即去噪语谱图;Ix表示干净语谱图,pG(x)表示通过生成器去噪之后的语谱图的概率分布,w、h、c分别指语谱图的宽、高和通道数;
(3)返回步骤(1)直到训练达到最优值,得到去噪模型。
4.如权利要求3所述的一种基于语谱图去噪和纹理增强的语音情感识别方法,其特征在于,所述步骤S3中,所述双边滤波的算法如下:基于空间距离的权重因子生成,通过当前点与中心点的空间距离并使用如下公式计算滤波输出||Sp-Sq||2=(xp-xq)2+(yp-yq)2
其中,(xp,yp)为当前位置,(xq,yq)为中心点的位置,σs为空间域标准差,σs越小,对图片的模糊度越小;
基于灰度距离的权重因子的生成,主要通过两个当前灰度与中心点灰度的灰度距基于值域的权重因子的生成,主要通过两个当前灰度与中心点灰度的灰度距离计算||Vp-Vq||2=(gray(xp,yp)-gray(xq,yq))2其中,V代表值域信息,gray(xp,yp)为当前灰度值,gray(xq,yq)为中心点灰度值,σr为值域标准差,σr越小,权重越小;离中心点位置越近,权重越大;
双边滤波图像输出计算:
其中,S表示空间域, 表示归一化因子, 表示像素q在邻域M内的所有像素的加权平均;σs和σr的取值范围为[0,1];
通过不同尺度空间域标准差σs、值域标准差σr获取低尺度滤波图和高尺度滤波图,将σs、σr都小的滤波图设为P1,并将其作为基底图像;将σs、σr都大的滤波图设为P2,P1与P2相减作为语谱图的纹理细节图,再乘以增强系数η,然后与P1相加,得到细节增强的语谱图的计算如下:Z=P1+η(P1-P2)。
5.如权利要求1-4任一项所述的一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法,其特征在于,所述卷积神经网络采用ResNet网络结构。
6.如权利要求5所述的一种基于语谱图去噪和纹理增强的语音情感识别方法,其特征在于,所述卷积神经网络包括依次连接的第一卷积层、池化层、第二卷积层、…、第H卷积层和自适应平均池化层,H为大于2的整数。
7.如权利要求6所述的一种基于语谱图去噪和纹理增强的语音情感识别方法,其特征在于,所述第二卷积层至第H卷积层均配置残差单元。
8.如权利要求6或7所述的一种基于语谱图去噪和纹理增强的语音情感识别方法,其特征在于,所述第二卷积层至第H卷积层的卷积核大小均为3×3。
9.如权利要求8所述的一种基于语谱图去噪和纹理增强的语音情感识别方法,其特征在于,所述第二卷积层至第H卷积层的通道数依次增大。
10.如权利要求6所述的一种基于语谱图去噪和纹理增强的语音情感识别方法,其特征在于,所述第一卷积层的卷积核大小为7×7、通道数为64。