欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2019101805392
申请人: 中国地质大学(武汉)
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于视听特征深度融合的动态情感识别方法,其特征在于:包括以下步骤:S1:从实际动态人脸情感数据中获取多个人脸视频构成动态情感数据,对所述动态情感数据进行预处理,得到面部表情图像帧和语音数据;所述动态情感数据包括面部表情模态数据和语音模态数据;

S2:采用三个正交平面的局部二进制模式算法从面部表情图像帧中提取面部表情模态数据的低层动态情感特征,从语音数据转化为的语谱图中提取语音模态数据的低层动态情感特征;

S3:根据面部表情模态数据和语音模态数据的低层动态情感特征,构建深度卷积神经网络,并通过深度卷积神经网络提取面部表情模态数据和语音模态数据的高层动态情感特征;

S4:基于典型相关分析算法将面部表情模态数据和语音模态数据的高层动态情感特征进行融合,得到情感融合特征;

S5:采用Softmax回归模型对情感融合特征进行识别,输出动态情感类别,即完成了对动态情感的识别。

2.如权利要求1所述的基于视听特征深度融合的动态情感识别方法,其特征在于:步骤S1中,对所述动态情感数据进行预处理的过程如下:S1‑1:对面部表情模态数据进行预处理的具体过程如下:

S1‑1‑1:对某一个总帧数为 的人脸视频,按照等帧距提取多帧图像; 为大于零的正整数;

S1‑1‑2:基于Viola‑Jones算法提取所述多帧图像中每帧图像的人脸关键区域;

S1‑1‑3:将所有标识人脸关键区域的图像都归一化为统一尺寸并转化为灰度图像,得到一组灰度图像序列;

S1‑1‑4:将所述灰度图像序列中的每一帧灰度图像平分为 块,得到一组面部表情图像帧;为大于零的正整数;

S1‑1‑5:按照步骤S1‑1‑1~S1‑1‑4的操作处理动态情感数据中所有的人脸视频,得到多组面部表情图像帧;

S1‑2:对语音模态数据进行预处理,具体过程如下:

S1‑2‑1:从动态情感数据中获取步骤S1‑1中所述的某一个人脸视频对应的总时长为M秒的语音数据;M为大于零的正整数;

S1‑2‑2:截取从(M‑1)/2秒到(M‑1)/2+1秒间的语音数据;

S1‑2‑3:按照步骤S1‑2‑1~S1‑2‑2的操作处理所有人脸视频中总时长为M秒的语音数据,得到统一长度的语音数据。

3.如权利要求2所述的基于视听特征深度融合的动态情感识别方法,其特征在于:步骤S2中,提取低层动态情感特征的具体过程如下:S2‑1:采用三个正交平面的局部二进制模式算法从面部表情图像帧中提取面部表情模态的低层动态情感特征,具体过程如下:S2‑1‑1:设定步骤S1‑1中得到的每组面部表情图像帧中每一图像块的序列为(X,Y,T),其中,所述图像块的分辨率为X*Y,所述图像块的序列帧长度为T,XY平面上包含每一图像块的纹理信息,XT和YT平面上包含每一图像块在时间和空间上的变化;

S2‑1‑2:分别从XY、XT和YT平面上提取LBP‑TOP直方图特征;

S2‑1‑3:将得到的LBP_TOP直方图特征进行归一化处理,得到面部表情模态的低层动态情感特征;

S2‑2:从语音模态数据转化为的语谱图中提取语音模态数据的低层动态情感特征,具体过程如下:S2‑2‑1:对步骤S1‑2中得到的语音数据进行分帧处理,得到语音序列yd(n),d表示第d帧语音数据,d=1,...,D,D表示总帧数,d和D均为正整数,n表示每帧语音数据的长度;

S2‑2‑2:使用哈宁窗对分帧后的语音序列yd(n)进行加窗处理,利用公式(1)得到加窗分帧处理后的语音信号yd,w(n):yd,w(n)=yd(n)*w(n)    (1)

其中,w(n)为哈宁窗函数, N为大于1的正整数,表

示哈宁函数长度;

S2‑2‑3:计算语音信号yd,w(n)的快速傅里叶变换,得到FFT系数Yd(k);k表示FFT的变换区间中的数值,0≤k≤N1‑1,N1为大于1的正整数,表示FFT的变换区间长度;

S2‑2‑4:根据FFT系数Yd(k),采用log函数生成语谱图,得到语音模态数据的低层动态情感特征。

4.如权利要求3所述的基于视听特征深度融合的动态情感识别方法,其特征在于:步骤S3中,提取高层动态情感特征的具体过程如下:S3‑1:将步骤S2‑1中提取到的面部表情模态数据的低层动态情感特征输入到一个由卷积层、最大池化层、Dropout层和全连接层构成的深度卷积神经网络,提取面部表情模态数据的高层动态情感特征,具体包括以下步骤:S3‑1‑1:采用自适应矩估计对构建的深度卷积神经网络进行优化;

S3‑1‑2:低层动态情感特征依次经过由45个大小为3×3卷积滤波器构成的卷积层,卷积层沿着输入的低层动态情感特征的垂直和水平方向移动卷积滤波器,计算得到卷积滤波器的权值和输入的低层动态情感特征的点积,然后添加偏置项得到卷积特征;

S3‑1‑3:将卷积特征输入到最大池化层,最大池化层通过大小为3×3的池化滤波器将输入的卷积特征划分为大小为3×3的矩形池区域,并计算得到每个矩形池区域的最大值,即得到池化特征;

S3‑1‑4:将池化特征输入到Dropout层,得到特征数据;

S3‑1‑5:将所述特征数据输入到全连接层,全连接层将所述特征数据全部结合起来,得到面部表情模态数据的高层动态情感特征Rh;

S3‑2:将步骤S2‑2中提取到的语音模态数据的低层动态情感特征输入一个由卷积层、最大池化层、Dropout层和全连接层构成的深度卷积神经网络,提取语音模态数据的高层动态情感特征,具体包括以下步骤:采用Adam算法对构建的深度卷积神经网络进行优化,低层动态情感特征依次通过由45个大小为3×3卷积滤波器构成的卷积层、由大小为3×3的池化滤波器构成的最大池化层1、由90个大小为3×3的卷积滤波器构成的卷积层、由大小为3×3的池化滤波器构成的最大池化层2、由135个大小为3×3的卷积滤波器构成的卷积层、由大小为3×3的池化滤波器构成的最大池化层3,由180个大小为3×3的卷积滤波器构成的卷积层、由215个大小为3×3的卷积滤波器构成的卷积层、由大小为1×13的池化滤波器构成的最大池化层、Dropout层和全连接层组成的深度卷积神经网络,得到语音模态数据的高层动态情感特征Jh。

5.如权利要求1所述的基于视听特征深度融合的动态情感识别方法,其特征在于:步骤S4中,情感特征进行融合的具体步骤如下:S4‑1:采用主成分分析法分别对面部表情模态数据和语音模态数据的高层动态情感特征Rh和Jh进行降维,得到降维后的面部表情模态特征Rp和语音模态特征Jp;

S4‑2:采用典型相关算法对所述面部表情模态特征Rp和语音模态特征Jp进行典型相关分析,得到同类样本特征之间相关性最大的两组新的面部表情模态特征Rc和语音模态特征Jc;

S4‑3:将得到的新的面部表情模态特征Rc和语音模态特征Jc进行串联,得到融合后的特征C=[Rc,Jc]。

6.如权利要求1所述的基于视听特征深度融合的动态情感识别方法,其特征在于:步骤S5中,使用所述Softmax回归模型对情感融合特征进行识别的具体过程如下:S5‑1:采用梯度下降算法使所述Softmax回归模型的代价函数J(θ)的导数 最小化 ,对所述 So ft ma x回 归模型 进行 优化 ;其中 ,代价函 数J (θ) 为 :(c1,c2,…,cm)为情感融合特征,(z1,

z2,…,zm)为输入情感融合特征时对应的标签值,m为情感融合特征总数,t为情感类别总数,i表示i个情感融合特征,j表示第j类情感类别,1{zi=j}为示性函数, 为Softmax回归模型的参数值; 为权重衰减项;

S5‑2:采用设定函数hθ(ci)计算输入的情感融合特征ci属于每一种情感类别j的概率值p(z=j|c);当输入的情感融合特征ci对应于情感类别j的概率值在t个概率值中最大时,则判定输入的情感融合特征ci属于情感类别j;hθ(ci)的计算公式为:其中,t为情感类别总数,p(zi=j|ci;θ)为输入

的情感融合特征ci属于情感类别j的概率值,{p(zi=1|ci;θ),p(zi=2|ci;θ),...,p(zi=t|ci;θ)}的和为1。