1.一种基于预测的多特征融合的老人语音情感识别方法,其特征在于:其包括以下步骤:第一步:获取空巢老人语音情感数据库,所述数据库中包含多种情感类别和多个人物形象;
第二步:对所述数据库进行处理,分别对所述数据库中的每条语音和表情提取不同的特征参数:每条语音带有对应的情感类别,与相应语音对应的人物形象带有对应的表情:第一种特征:小波系数;利用小波变换对每条语音进行分解,舍弃语音高频带小波系数,实现降噪目的,然后选取语音基频带的小波系数进行方差分析,进而预测带噪语音的基音周期;
第二种特征:傅立叶系数;利用傅里叶变换对每条语音整体变换,在得到加窗的每一帧信号后,需要知道此帧信号在不同频段的能量分布,从一个离散信号中提取离散频段频谱信息;
第三种特征:Mel频率倒谱系数;在Mel标度频率域提取出倒谱参数;
第三步:采用基于预测的方法对多特征进行融合;基于预测的融合框架包括两部分:第一个是跨特征预测组件,其通过建模多特征之间的关系来组合小波系数(X)、傅立叶系数(F)、Mel频率倒谱系数(M),跨特征预测组件对应于特征级融合,其中三种特征的连接由第一组预测器替代,分别学习语音情感类别的三种特征参数之间的映射;
第二个是特征内预测组件,分别对三种特征的时间演进进行建模,特征内预测组件对应于决策级融合,其中每种特征由两个第二组预测器建模,这两个第二组预测器分别学习每个情感类别的过去和当前特征之间的映射;
其中,跨特征预测组件和特征内预测组件以分层方式组合;在第一层中,跨特征预测组件的三个预测器被组合以便考虑特征之间的双向关系,特征内预测组件的三个预测器被组合以便合并关于特征的时间演进的信息;在第二层中,组合跨特征预测组件和特征内预测组件,以便研究特征关系和它们的时间演进;
第四步:用SVM进行特征识别;
第五步:输出同一段语音下预测的最高准确率的情感类别,得到识别结果。
2.如权利要求1所述的基于预测的多特征融合的老人语音情感识别方法,其特征在于:所述数据库中包含7种情感类别和11个人物形象,7种情感类别为:生气,焦虑,无聊,厌恶,高兴,中性,伤心;11个人物形象,每一个人物表达出自己的情感类别,每一种情感类别里有不同的样本数。
3.如权利要求1所述的基于预测的多特征融合的老人语音情感识别方法,其特征在于:在对特征进行预测的第一组预测器中,小波系数、傅立叶系数和Mel频率倒谱系数之间的关系分别由六个回归因子fX→F、fX→M、fF→M、fF→X、fM→X、fM→F建模;六个回归因子对应六个预测器,六个预测器分别将三种特征作为输入,并在相同帧t处预测对应的识别率;
识别率预测时,采用以下等式:
fX→F(X[t-kXF,t])=FX→F[t]≈F[t] (1)fX→M(X[t-kXM,t])=MX→M[t]≈M[t] (2)fF→M(F[t-kFM,t])=MF→M[t]≈M1[t] (3)fM→F(M[t-kMF,t])=FM→F[t]≈F1[t] (4)fM→X(M[t-kMX,t])=XM→X[t]≈X[t] (5)fF→X(F[t-kFX,t])=XF→X[t]≈X1[t] (6)其中,在6个等式中,窗口k的大小取决于映射类型和建模类。
4.如权利要求1所述的基于预测的多特征融合的老人语音情感识别方法,其特征在于:在第二组预测器中,其在每个特征内进行预测,每个情感类别的过去和未来特征之间的关系由三个回归因子fX→X、fF→F和fM→M建模;三个回归因子对应三个预测器,三个预测器将过去的特征作为输入,并且在帧t处预测对应的特征;
特征预测时,采用以下等式:
fX→X(X[t-kXX,t-1])=XX→X[t]≈X[t] (7)f F→F(F[t-kFF,t-1])=FF→F[t]≈F[t] (8)fM→M(M[t-kMM,t-1])=MM→M[t]≈M[t] (9)其中,在上述3个等式中,窗口k的大小取决于映射类型和建模类。
5.如权利要求1所述的基于预测的多特征融合的老人语音情感识别方法,其特征在于:每个预测器的总误差通过对所有帧N上的误差求和来计算,导致每个情感类别的每个序列有9个预测误差,情感类别的9个预测器误差使用以下等式计算;
2
其中,Err是MSE或MAE或L-E。
6.如权利要求5所述的基于预测的多特征融合的老人语音情感识别方法,其特征在于:利用等式(10)-(15)组合六个交叉特征预测模型,以考虑等式(19)中所示的受到等式(20)约束的特征双向关系;
eCP=ωXF*eX→F+ωXM*eX→M+ωFM*eF→M+ωMF*eM→F+ωMX*eM→X+ωFX*eF→X (19)ωXF+ωXM+ωFM+ωMF+ωMX+ωFX=1 (20)其中,eCP是总的跨特征预测误差,ωXF、ωXM、ωFM、ωMF、ωMX和ωFX是跨特征预测分量的权重。
7.如权利要求6所述的基于预测的多特征融合的老人语音情感识别方法,其特征在于:利用等式(16)-(18)组合以便考虑特征之间的过去到未来关系,等式(21)受到等式(22)的约束;
eIP=ωXX*eX→X+ωMM*eM→M+ωFF*eF→F (21)ωXX+ωMM+ωFF=1 (22)其中,eIP是总体特征内预测误差,ωXX、ωMM和ωFF是特征内预测分量的权重。
8.如权利要求7所述的基于预测的多特征融合的老人语音情感识别方法,其特征在于:为了合并来自两个基于预测模型的信息,将两个分量的预测误差组合,等式(23)受到等式(24)的约束;
ec=ωCP*eCP+ωIP*eIP (23)ωCP+ωIP=1 (24)其中,ec是总预测误差,ωCP和ωIP分别是交叉特征预测和特征内预测融合分量的权重。
9.如权利要求7所述的基于预测的多特征融合的老人语音情感识别方法,其特征在于:对等式(19)、(21)、(23)使用softmax函数进行归一化,使得它们的和等于1。
10.如权利要求8所述的基于预测的多特征融合的老人语音情感识别方法,其特征在于:利用等式(23)基于误差向输入序列分配标签,通过选择对应于最低误差的标签来完成,采用等式(25)解释特征关系的情感类别特定模型相应地标记新序列:PredictedClass=arg min ec (25),其中,c=1....C,C指的是情感类别。