1.一种基于倒谱分离信号的非特定人语音情感识别方法,其特征在于,具体包括如下步骤:
S1.对情感语音库进行预处理;
S2.对预处理后的情感语音库提取传统特征;
S3.对处理后的情感语音库的语音信号进行倒谱域分离与重构;
S4.对重构后的语音信号进行特征提取,得到重构后的情感语音库;
S5.将经过步骤S4后的重构后的情感语音库分成训练集和测试集,训练集采用SVM分类器进行训练后,将测试集输入训练后的训练集中,进行语音识别后,输出判决结果;
经过上述步骤,完成非特定人语音的情感识别;
步骤S2中,所述的提取传统特征,是对分帧后的情感语音库的语音进行传统声学特征的提取,采用256点帧长、帧移128点,提取的声学特征包括:韵律特征参数提取、声音质量特征提取、非线性特征提取、谱特征提取;
韵律特征参数提取,包括:基音频率的均值、短时能量均值和过零率变化率;
声音质量特征提取,包括:频率微扰熵和振幅微扰熵;
非线性特征提取,包括:Hurst指数;
谱特征提取,包括:梅尔频域倒谱系数MFCC、线性预测系数LPC和非线性梅尔频域参数NFD_Mel;
所述的梅尔频域倒谱系数MFCC,是提取12维MFCC特及其一阶差分共24维,然后计算其平均值;
所述的线性预测系数LPC,是提取12维LPC,并计算其平均值;
所述的非线性梅尔频域参数NFD_Mel,具体的计算步骤为:S2-1.首先对分帧后的每帧信号做短时傅里叶变换,然后加入Teager能量算子,并取频谱幅度做2次方得到能量谱;
S2-2.将S 2-1中求得的能量谱输入Mel频率滤波器组中,并求出每个滤波器输出的对数能量;
S2-3.将S 2-2中取得的对数能量经离散余弦变换得到静态的12阶NFD_Mel参数;
S2-4.将S2-3中的NFD_Mel系数进行一阶差分,得到动态的12阶NFD_Mel参数;
S2-5.将S2-3与S2-4中的参数结果组合到一起,最终形成24阶的NFD_Mel参数。
2.根据权利要求1所述的一种基于倒谱分离信号的非特定人语音情感识别方法,其特征在于,步骤S1中,所述的情感语音库,含有7种情感,采用16Khz采样率,8bit量化,对情感语音库进行分帧加窗处理。
3.根据权利要求2所述的一种基于倒谱分离信号的非特定人语音情感识别方法,其特征在于,所述的7种情感包括中性、生气、害怕、高兴、悲伤、厌恶、无聊。
4.根据权利要求2所述的一种基于倒谱分离信号的非特定人语音情感识别方法,其特征在于,所述的分帧,取10--30ms内进行分帧。
5.根据权利要求2所述的一种基于倒谱分离信号的非特定人语音情感识别方法,其特征在于,所述的加窗,采用汉明窗。
6.根据权利要求1所述的一种基于倒谱分离信号的非特定人语音情感识别方法,其特征在于,步骤S3中,所述的对语音信号进行倒谱域分离与重构,分帧采用256点帧长,帧移
128,具体是:
S3-1.取S1分帧后的每帧信号x(n)计算复倒谱,每帧语音信号x(n)是由声门脉冲激励e(n)经声道响应v(n)滤波而得到,即 对x(n)进行Z变换将卷积信号变为乘积信号,然后取对数运算将乘积信号变为加性信号,最后对加性信号取Z反变换,即可得到复倒谱;
S3-2.取S1分帧后的每帧信号x(n)计算倒谱信号,我们对x(n)进行Z变换后,计算取其实部做对数运算,最后做Z反变换即可得到倒谱;
S3-3.人声的基音周期范围在50hz~700hz,在此范围的倒谱中寻找激励源冲激的最大值,若最大值冲激幅度超过0.08则记录下峰值点A的位置并判断为浊音,否则为清音并跳过该帧;
S3-4.倒谱由于计算时失去了信号的相位信息,当判断为浊音时,在复倒谱上对信号进行分离操作,在复倒谱上以A点为分界点将信号分为声道响应与声门激励,为了保留全部声门信息的同时,逐步包含声道信息,将A点沿向原点移动,移动距离记为L,L=b*A,移动后的端点记为A1,其中b为可调节参数,0≤b≤1;
S3-4.根据复倒谱的对称性,在A1点的对称点取到原点信号,并把对称的两段信号合并设为 对 做复倒谱逆变换,即可重构回时域信号x1(n),经过重构后的语音信号x1(n)只包含部分声道信息和全部的声门信息。
7.根据权利要求1所述的一种基于倒谱分离信号的非特定人语音情感识别方法,其特征在于,步骤S4中,对重构后的语音信号进行特征提取,采用256点帧长,帧移128,具体包括如下步骤:
S4-1-1.取x1(n)语音信号做短时傅里叶变换,求出频谱,并取频谱幅度做2次方得到能量谱;
S4-1-2.将S4-1-1中求得的能量谱输入Mel频率滤波器组中,并求出每个滤波器输出的对数能量;
S4-1-3.将S4-1-2中取得的对数能量经离散余弦变换得到静态的12阶CSS-MFCC参数;
S4-1-4.将S4-1-3中的CSS-MFCC系数进行一阶差分,得到动态的12阶CSS-MFCC参数;
S4-1-5.将S4-1-3与S4-1-4中的参数结果组合到一起,最终形成24阶的MFCC参数,取24阶的CSS-MFCC均值作为全局特征;
S4-2-1.取x1(n)做短时傅里叶变换,通过公式对信号加入teager能量算子,并取频谱幅度做2次方得到能量谱,teager能量算子为:ψ(x(n))=x2(n)-x(n-1)x(n+1);
S4-2-2.将S4-2-1中求得的能量谱输入Mel频率滤波器组中,并求出每个滤波器输出的对数能量;
S4-2-3.将S4-2-2中取得的对数能量经离散余弦变换得到静态的12阶CSS-NFDMel参数;
S4-2-4.将S4-2-3中的CSS-NFDMel系数进行一阶差分,得到动态的12阶CSS-NFDMel参数;
S4-2-5.将S4-2-3与S4-2-4中的参数结果组合到一起,最终形成24阶的NFD_Mel参数,采用了24阶的CSS-NFDMel均值作为全局特征。
8.根据权利要求1所述的一种基于倒谱分离信号的非特定人语音情感识别方法,其特征在于,步骤S5中,将经过步骤S4后的重构后的情感语音库分成65%的训练集和35%的测试集,训练集采用SVM分类器进行训练后,将测试集输入训练后的训练集中,进行语音识别后,输出判决结果,具体是:
S5-1.将对情感语音库提取的特征:基音频率的均值、短时能量均值、过零率变化率、频率微扰熵、振幅微扰熵、Hurst指数、梅尔频域倒谱系数MFCC、线性预测系数LPC和非线性梅尔频域参数NFD_Mel进行特征组合;
S5-2.将S5-1的特征中的65%作为训练集用SVM分类器进行训练,剩下35%作为测试集用于测试训练集的分类器性能,将测试集输入训练后的训练集中,进行语音识别后,输出判决结果。