欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2017114340483
申请人: 广西师范大学
专利类型:发明专利
专利状态:已下证
专利领域: 乐器;声学
更新日期:2023-12-11
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于倒谱分离信号的非特定人语音情感识别方法,其特征在于,具体包括如下步骤:

S1.对情感语音库进行预处理;

S2.对预处理后的情感语音库提取传统特征;

S3.对处理后的情感语音库的语音信号进行倒谱域分离与重构;

S4.对重构后的语音信号进行特征提取,得到重构后的情感语音库;

S5.将经过步骤S4后的重构后的情感语音库分成训练集和测试集,训练集采用SVM分类器进行训练后,将测试集输入训练后的训练集中,进行语音识别后,输出判决结果;

经过上述步骤,完成非特定人语音的情感识别;

步骤S2中,所述的提取传统特征,是对分帧后的情感语音库的语音进行传统声学特征的提取,采用256点帧长、帧移128点,提取的声学特征包括:韵律特征参数提取、声音质量特征提取、非线性特征提取、谱特征提取;

韵律特征参数提取,包括:基音频率的均值、短时能量均值和过零率变化率;

声音质量特征提取,包括:频率微扰熵和振幅微扰熵;

非线性特征提取,包括:Hurst指数;

谱特征提取,包括:梅尔频域倒谱系数MFCC、线性预测系数LPC和非线性梅尔频域参数NFD_Mel;

所述的梅尔频域倒谱系数MFCC,是提取12维MFCC特及其一阶差分共24维,然后计算其平均值;

所述的线性预测系数LPC,是提取12维LPC,并计算其平均值;

所述的非线性梅尔频域参数NFD_Mel,具体的计算步骤为:S2-1.首先对分帧后的每帧信号做短时傅里叶变换,然后加入Teager能量算子,并取频谱幅度做2次方得到能量谱;

S2-2.将S 2-1中求得的能量谱输入Mel频率滤波器组中,并求出每个滤波器输出的对数能量;

S2-3.将S 2-2中取得的对数能量经离散余弦变换得到静态的12阶NFD_Mel参数;

S2-4.将S2-3中的NFD_Mel系数进行一阶差分,得到动态的12阶NFD_Mel参数;

S2-5.将S2-3与S2-4中的参数结果组合到一起,最终形成24阶的NFD_Mel参数。

2.根据权利要求1所述的一种基于倒谱分离信号的非特定人语音情感识别方法,其特征在于,步骤S1中,所述的情感语音库,含有7种情感,采用16Khz采样率,8bit量化,对情感语音库进行分帧加窗处理。

3.根据权利要求2所述的一种基于倒谱分离信号的非特定人语音情感识别方法,其特征在于,所述的7种情感包括中性、生气、害怕、高兴、悲伤、厌恶、无聊。

4.根据权利要求2所述的一种基于倒谱分离信号的非特定人语音情感识别方法,其特征在于,所述的分帧,取10--30ms内进行分帧。

5.根据权利要求2所述的一种基于倒谱分离信号的非特定人语音情感识别方法,其特征在于,所述的加窗,采用汉明窗。

6.根据权利要求1所述的一种基于倒谱分离信号的非特定人语音情感识别方法,其特征在于,步骤S3中,所述的对语音信号进行倒谱域分离与重构,分帧采用256点帧长,帧移

128,具体是:

S3-1.取S1分帧后的每帧信号x(n)计算复倒谱,每帧语音信号x(n)是由声门脉冲激励e(n)经声道响应v(n)滤波而得到,即 对x(n)进行Z变换将卷积信号变为乘积信号,然后取对数运算将乘积信号变为加性信号,最后对加性信号取Z反变换,即可得到复倒谱;

S3-2.取S1分帧后的每帧信号x(n)计算倒谱信号,我们对x(n)进行Z变换后,计算取其实部做对数运算,最后做Z反变换即可得到倒谱;

S3-3.人声的基音周期范围在50hz~700hz,在此范围的倒谱中寻找激励源冲激的最大值,若最大值冲激幅度超过0.08则记录下峰值点A的位置并判断为浊音,否则为清音并跳过该帧;

S3-4.倒谱由于计算时失去了信号的相位信息,当判断为浊音时,在复倒谱上对信号进行分离操作,在复倒谱上以A点为分界点将信号分为声道响应与声门激励,为了保留全部声门信息的同时,逐步包含声道信息,将A点沿向原点移动,移动距离记为L,L=b*A,移动后的端点记为A1,其中b为可调节参数,0≤b≤1;

S3-4.根据复倒谱的对称性,在A1点的对称点取到原点信号,并把对称的两段信号合并设为 对 做复倒谱逆变换,即可重构回时域信号x1(n),经过重构后的语音信号x1(n)只包含部分声道信息和全部的声门信息。

7.根据权利要求1所述的一种基于倒谱分离信号的非特定人语音情感识别方法,其特征在于,步骤S4中,对重构后的语音信号进行特征提取,采用256点帧长,帧移128,具体包括如下步骤:

S4-1-1.取x1(n)语音信号做短时傅里叶变换,求出频谱,并取频谱幅度做2次方得到能量谱;

S4-1-2.将S4-1-1中求得的能量谱输入Mel频率滤波器组中,并求出每个滤波器输出的对数能量;

S4-1-3.将S4-1-2中取得的对数能量经离散余弦变换得到静态的12阶CSS-MFCC参数;

S4-1-4.将S4-1-3中的CSS-MFCC系数进行一阶差分,得到动态的12阶CSS-MFCC参数;

S4-1-5.将S4-1-3与S4-1-4中的参数结果组合到一起,最终形成24阶的MFCC参数,取24阶的CSS-MFCC均值作为全局特征;

S4-2-1.取x1(n)做短时傅里叶变换,通过公式对信号加入teager能量算子,并取频谱幅度做2次方得到能量谱,teager能量算子为:ψ(x(n))=x2(n)-x(n-1)x(n+1);

S4-2-2.将S4-2-1中求得的能量谱输入Mel频率滤波器组中,并求出每个滤波器输出的对数能量;

S4-2-3.将S4-2-2中取得的对数能量经离散余弦变换得到静态的12阶CSS-NFDMel参数;

S4-2-4.将S4-2-3中的CSS-NFDMel系数进行一阶差分,得到动态的12阶CSS-NFDMel参数;

S4-2-5.将S4-2-3与S4-2-4中的参数结果组合到一起,最终形成24阶的NFD_Mel参数,采用了24阶的CSS-NFDMel均值作为全局特征。

8.根据权利要求1所述的一种基于倒谱分离信号的非特定人语音情感识别方法,其特征在于,步骤S5中,将经过步骤S4后的重构后的情感语音库分成65%的训练集和35%的测试集,训练集采用SVM分类器进行训练后,将测试集输入训练后的训练集中,进行语音识别后,输出判决结果,具体是:

S5-1.将对情感语音库提取的特征:基音频率的均值、短时能量均值、过零率变化率、频率微扰熵、振幅微扰熵、Hurst指数、梅尔频域倒谱系数MFCC、线性预测系数LPC和非线性梅尔频域参数NFD_Mel进行特征组合;

S5-2.将S5-1的特征中的65%作为训练集用SVM分类器进行训练,剩下35%作为测试集用于测试训练集的分类器性能,将测试集输入训练后的训练集中,进行语音识别后,输出判决结果。