1.一种实时语音情感识别方法,其特征在于,包括以下步骤:对原始语音信号进行预处理后,提取梅尔频谱;
从所述梅尔频谱中提取每个采样帧的共振峰;
通过比较每个采样帧的共振峰中的局部幅值的极大值,获取每个采样帧内振幅值前三的共振峰,作为第一主要共振峰;
根据实时噪声门的沉默阈值对各所述第一主要共振峰进行去噪处理,得到去噪后的共振峰;
计算所述去噪后的共振峰中,任意两帧的任意两个共振峰之间的匹配指标,根据所述匹配指标重建得到原始帧长的共振峰;
获取重建后的共振峰振幅的最大值和最小值;
获取重建后的共振峰中每个采样帧内振幅值前三的共振峰,作为第二主要共振峰;
计算所述第二主要共振峰的复合能量;
将所述重建后的共振峰振幅的最大值和最小值作为明显的沉默停顿音节分割标准,并根据所述复合能量的变化进行语音分割,得到多个音节;
统计各所述音节内的特征;
根据各所述音节内的特征,通过多层感知器获得每个音节的情感类别概率;
通过对每个所述音节的情感类别概率进行语句级置信聚合,得到语句级情感识别结果。
2.如权利要求1所述的一种实时语音情感识别方法,其特征在于,所述预处理步骤具体包括:对原始语音信号进行预加重,得到预加重后的信号;
对所述预加重后的信号进行分帧加窗及傅里叶变换处理,得到变换后的信号;
将所述变换后的信号通过梅尔滤波器组处理,得到每个采样帧的梅尔频率;
将多个相邻采样帧的梅尔滤波器组进行连接,得到语音信号的梅尔频谱。
3.如权利要求1所述的一种实时语音情感识别方法,其特征在于,所述通过比较每个采样帧的共振峰中的局部幅值的极大值,获取每个采样帧内振幅值前三的共振峰,作为第一主要共振峰的步骤中,所述第一主要共振峰的相关参数计算公式如下:第h个最高振幅共振峰的功率幅值的计算公式为:第h个最高振幅共振峰的梅尔刻度频率的计算公式为:共振峰h的带宽的计算公式为:
式中,ph为第h个最高振幅共振峰的功率幅值,ph‑1为第h‑1个最高振幅共振峰的功率功率幅值,p(l)为梅尔滤波器组l的幅值,fh为第h个最高振幅共振峰的梅尔刻度频率,wh为共振峰h的带宽。
4.如权利要求1所述的一种实时语音情感识别方法,其特征在于,所述实时噪声门的沉默阈值的计算公式为:式中,Amin是实时噪声门的沉默阈值,Aimp是梅尔频谱中最高峰值振幅衰减值,该衰减值不断根据当前传入帧中高于当前衰减值的新峰值进行更新。
5.如权利要求1所述的一种实时语音情感识别方法,其特征在于,计算任意两帧ta,tb的任意两个共振峰ha,hb之间的匹配指标的具体计算公式为:式中,Ia,b表示匹配指标,tb‑ta表示两帧之间的时间差,fb‑fa表示两帧之间的频率差,表示为两帧中最小功率幅值与最大功率幅值的比值,La表示已经与其它共振峰相连接的共振峰数量,Kt与Kf为曼哈顿距离常数,取决于相邻共振峰的水平和垂直单位距离。
6.如权利要求1所述的一种实时语音情感识别方法,其特征在于,所述计算第二主要共振峰的复合能量,具体计算公式为:式中,ec(t)为时间坐标t处的复合能量,eh(t)为第h个共振峰的能量,fh(t)为第h个共振峰的频率,HE是一个强调常数,用于提高高频共振峰的能量权重,所述复合能量用于判别讲话时的沉默停顿。
7.如权利要求1所述的一种实时语音情感识别方法,其特征在于,所述音节内的特征包括至少15个。
8.如权利要求1所述的一种实时语音情感识别方法,其特征在于,所述原始帧长为
25ms。
9.一种实时语音情感识别装置,其特征在于,包括以下模块:梅尔频谱提取模块,用于对原始语音信号进行预处理后,提取梅尔频谱;
共振峰提取模块,用于从所述梅尔频谱中提取每个采样帧的共振峰;
第一主要共振峰获取模块,用于通过比较每个采样帧的共振峰中的局部幅值的极大值,获取每个采样帧内振幅值前三的共振峰,作为第一主要共振峰;
实时噪声门模块,用于通过实时噪声门的沉默阈值对各所述第一主要共振峰进行去噪处理,得到去噪后的共振峰;
共振峰匹配重建模块,用于计算所述去噪后的共振峰中,任意两帧的任意两个共振峰之间的匹配指标,根据所述匹配指标重建得到原始帧长的共振峰;
振幅最值获取模块,用于获取重建后的共振峰振幅的最大值和最小值;
第二主要共振峰获取模块,用于获取重建后的共振峰中每个采样帧内振幅值前三的共振峰,作为第二主要共振峰;
复合能量计算模块,用于计算所述第二主要共振峰的复合能量;
语音分割模块,用于将所述重建后的共振峰振幅的最大值和最小值作为明显的沉默停顿音节分割标准,并根据所述复合能量的变化进行语音分割,得到多个音节;
音节特征统计模块,用于统计各所述音节内的特征;
音节情感分类模块,用于根据各所述音节内的特征,通过多层感知器获得每个音节的情感类别概率;
语句级置信聚合模块,用于通过对每个所述音节的情感类别概率进行语句级置信聚合,得到语句级情感识别结果。
10.如权利要求9所述的一种实时语音情感识别装置,其特征在于,所述梅尔频谱提取模块包括:预加重模块,用于对原始语音信号进行预加重处理,得到预加重后的信号;
分帧加窗及傅里叶变换模块,用于对所述预加重后的信号进行分帧加窗及傅里叶变换处理,得到变换后的信号;
梅尔滤波模块,用于将所述变换后的信号通过梅尔滤波器组处理,得到每个采样帧的梅尔频率;
相邻帧连接模块,用于将多个相邻采样帧的梅尔滤波器组进行连接,得到语音信号的梅尔频谱。