欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2016103527504
申请人: 中国地质大学(武汉)
专利类型:发明专利
专利状态:已下证
专利领域: 乐器;声学
更新日期:2024-02-23
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.基于语音和面部表情的双模态情感融合的识别方法,其特征在于,包括以下步骤:

S1、获取待识别对象的音频数据和视频数据;

S2、对所述音频数据进行预处理得到情感语音信号;从所述视频数据中提取人脸表情图像,并进行眼睛、鼻子、嘴巴区域的分割,预处理后得到统一标准的三个区域的图像;

S3、从所述情感语音信号中提取语音情感特征;从所述三个区域的图像中提取每个区域图像中的面部表情特征;

S4、对所述语音情感特征和所述面部表情特征进行PCA分析降维,获得最终语音情感特征和最终面部表情特征,并将最终语音情感特征作为语音模态样本,将最终面部表情特征作为面部表情模态样本;

S5、将所述语音模态样本进行朴素贝叶斯的情感语音分类,得到语音模态样本在不同情感状态下的第一条件概率集合;将所述面部表情模态样本进行基于朴素贝叶斯的人脸表情分类,得到面部表情模态样本在不同情感状态下的第二条件概率集合;

S6、将所述第一条件概率集合和所述第二条件概率集合进行决策级融合,得到待识别对象的最终情感识别结果;

所述步骤S5中分别使用语音模态样本和面部表情模态样本进行朴素贝叶斯情感分类的具体步骤为:S5.1、设分别有m个语音模态样本,设语音模态样本为x1,则对x1进行朴素贝叶斯情感分类后可得到x1在每种情感类别下的第一条件概率集合{pij(x),i=1,3,…,2m-1,j=1,

2,…,6},其中,i=1,3,…,2m-1代表不同的情感语音模态样本数据,j=1,2,…,6分别代表高兴、生气、讨厌、害怕、悲伤和惊奇六种基本情感类别;

S5.2、设分别有m个面部表情模态样本,设面部表情模态样本为x2,则对x2进行朴素贝叶斯情感分类后可得到第二条件概率集合{pij(x),i=2,4,…,2m,j=1,2,…,6},其中,i=2,

4,…,2m代表不同的情感语音模态样本数据,j=1,2,…,6分别代表高兴、生气、讨厌、害怕、悲伤和惊奇六种基本情感类别;

所述步骤S6的将所述第一条件概率集合和所述第二条件概率集合进行决策级融合,得到待识别对象的最终情感识别结果具体步骤为:S6.1、按照乘积规则 对第一条件概率集合和第二条件概率集合进行融

合,将不同模态的情感特征在同一情感类别下的条件概率相乘,得到的后验概率集合,{q'j(x),j=1,2,…,6};

S6.2、将所述后验概率集合中最大的后验概率数值所对应的类别作为最终识别结果,若有多个数值相同的最大后验概率,则对数值相同的最大后验概率对应的样本重新进行步骤S5的分类并计算条件概率,直至得到最终识别结果。

2.根据权利要求1所述的基于语音和面部表情的双模态情感融合的识别方法,其特征在于,所述步骤S2对音频数据进行预处理得到情感语音信号的具体步骤为:S2A.1、对音频数据进行固定频率的采样,将音频数据的幅值分为若干个有限区间,将属于同一区间的音频数据用区间所对应的幅值统一表示,最终将信号转化为时间和幅值离散的数字信号;

S2A.2、采用高通滤波器H(z)=1-αz-1对数字信号的高频部分的功率进行补偿,放大语音信号高频部分,得到补偿语音信号,其中H(z)为语音信号功率函数,z为频率,α为预加重系数且0.9≤α<1;

S2A.3、对步骤S2A.2处理后的补偿语音信号进行分帧处理,将补偿语音信号划分为多帧语音段,并对分帧后的语音段进行加窗处理,得到情感语音信号。

3.根据权利要求1所述的基于语音和面部表情的双模态情感融合的识别方法,其特征在于,所述步骤S2从步骤S1抽取的视频数据中提取人脸表情图像,并进行眼睛、鼻子、嘴巴区域的分割,预处理后得到统一标准的三个区域图像的具体步骤为:S2B.1、获取所述人脸表情图像中眼睛、鼻子、嘴巴的三个区域的四角坐标,将每个区域的坐标值经过坐标变换和取整数,获取相应裁剪区域的矩形信息,将眼睛、鼻子、嘴巴从所述人脸表情图像中分割出来,分别得到眼睛区域图像、鼻子区域图像和嘴巴区域图像;

S2B.2、将待识别对象的所有眼睛区域图像调节为同一尺寸,所有的鼻子区域图像调节为同一尺寸,所有的嘴巴区域图像调节为同一尺寸;

S2B.3、增加所有区域图像的亮度和对比度,得到高亮度图像;

S2B.4、通过调整高亮度图像的灰度值将图像像素均匀地分布在整个图像范围内得到统一标准的三个区域图像。

4.根据权利要求1所述的基于语音和面部表情的双模态情感融合的识别方法,其特征在于,所述步骤S3从情感语音信号中提取语音情感特征的具体包括以下步骤:S3A.1、利用短时自相关函数法确定情感语音信号的周期,提取出基频特征的10个统计学特征参数,短时自相关函数Rω(k)的定义为:其中,S(n)为情感语音信号的时间序列,Sω(n)为第ω帧情感语音信号,每帧帧长为N,k为时间的延迟量,10个统计学特征参数包括:基频的最大值Pmax、基频的最小值Pmin、变化范围Pd=Pmax-Pmin、平均值Pm、标准差σp、平均绝对斜度Ms、上四分位数P0.75、下四分位数P0.25、内四分极值Pi=P0.75-P0.25、中位数P0.5;

S3A.2、根据LPC的线性预测运算求出预测系数{ak,k=1,2,…,p},再根据预测系数通过FFT运算确定声道的功率谱响应曲线;最后用峰值检出法精准地计算出功率谱与中心频率,并计算出F1、F2、F3共振峰以及与其相关的统计学参数,具体包括:F1平均值、F1标准差、F2平均值、F2标准差、F3平均值、F3标准差、F1中位数、F1中位数所占带宽、F2中位数、F2中位数所占带宽、F3中位数、F3中位数所占带宽,共12个共振峰特征参数;

S3A.3、对每一帧情感语音信号进行FFT变换得到语音信号的频谱;再对每一帧的数据求频谱幅值的平方得到能量谱,并采用Mel滤波器对每一帧的谱线进行带通滤波;最后对Mel滤波器组的输出求对数,并作逆傅里叶变换便可得到Mel倒谱系数;

S3A.4、综合步骤S3A.1中得到的10个统计学特征参数、步骤S3A.3中得到的12个共振峰特征参数和步骤S3A.4得到的Mel倒谱系数,最终得到语音情感特征。

5.根据权利要求1所述的基于语音和面部表情的双模态情感融合的识别方法,其特征在于,所述步骤S3从步骤S2处理得到的统一标准的三个区域图像中提取每个区域图像中的面部表情特征的具体步骤为:S3B.1、通过2D-Gabor小波变换从统一标准的人脸图像中提取图像纹理特征,将眼睛、鼻子、嘴巴的区域图像的每个方向与尺度进行2D-Gabor小波变换处理,获得眼睛、鼻子、嘴巴ROI图像每个方向与尺度的2D-Gabor幅值图谱;

S3B.2、将眼睛、鼻子、嘴巴区域图像每个方向与尺度的2D-Gabor幅值图谱进行均匀模式的LBP算子处理,并对其求取直方图,最后将各子块、各方向、各尺度的直方图级联为表示一幅人脸表情图像特征的直方图序列,将所述直方图序列作为多特征提取算法的面部表情特征。

6.根据权利要求5所述的基于语音和面部表情的双模态情感融合的识别方法,其特征在于,所述步骤S4对步骤S3中提取的语音情感特征和面部表情特征进行PCA分析降维的具体步骤为:S4.1、使用PCA对步骤S4提取的语音情感特征进行降维处理,获得用于表情分类的最终语音情感特征;

S4.2、将步骤S3B.2得到的面部表情特征经过PCA降维处理后,获得用于表情分类的最终面部表情特征。

7.基于语音和面部表情的双模态情感融合的识别系统,其特征在于,基于权利要求1至

6任一项所述的基于语音和面部表情的双模态情感融合的识别方法,包括以下模块:

数据提取模块,用于获取待识别对象的音频数据和视频数据;信号提取模块,用于对所述音频数据进行预处理得到情感语音信号;从所述视频数据中提取人脸表情图像,并进行眼睛、鼻子、嘴巴区域的分割,预处理后得到统一标准的三个区域的图像;

特征提取模块,用于从所述情感语音信号中提取语音情感特征;从所述三个区域的图像中提取每个区域图像中的面部表情特征;

PCA分析降维模块,用于对语音情感特征和面部表情特征进行PCA分析降维;

贝叶斯分类模块,用于将所述语音模态样本进行朴素贝叶斯的情感语音分类,得到语音模态样本在不同情感状态下的第一条件概率集合;将所述面部表情模态样本进行基于朴素贝叶斯的人脸表情分类,得到面部表情模态样本在不同情感状态下的第二条件概率集合;

决策级融合模块,用于将第一条件概率集合和第二条件概率集合进行决策级融合,得到最终识别结果。

8.根据权利要求7所述的基于语音和面部表情的双模态情感融合的识别系统,其特征在于,所述PCA分析降维模块还包括语音情感特征降维单元和面部表情特征降维单元,所述语音情感特征降维单元用于使用PCA对步骤S4提取的语音情感特征进行降维处理,获得用于表情分类的最终语音情感特征;

将所述面部表情特征经过PCA降维处理后,获得用于表情分类的最终面部表情特征。