1.一种基于图卷积神经网络的跨语料库情感识别方法,其特征在于步骤如下:S1获取两个音频数据库,两个音频数据库中的每条音频都具有一个情感标签,一个音频数据库作为训练数据集,另一个作为测试数据集,其中测试数据集分成多份,取一份作为测试样本,删除该份测试样本中语音的情感标签形成无标签的测试样本,;
S2利用若干声学低维描述子对两个音频数据库中的音频进行特征提取,得到多个情感特征组,并将多个情感特征组成向量作为对应语音的特征向量;
S3建立图卷积神经网络模型GCN,将每条音频定义为GCN的节点,其中包括无标签的音频,将GCN中每个节点与与之距离最近节点之间构成边,最终将节点和边连接构成一张新的图,这张新的图把有标签数据、无标签数据和测试数据连接了起来,将新图输入两层的图卷积神经网络,;
S4将已知情感标签的训练数据集中的样本和无标签的测试样本一起放入S3中获得的卷积神经网络模型继续训练,测试测试数据集中未删除情感标签的样本,采用softmax分类器进行分类,得到未删除情感标签的测试样本的标签分类;
S5无标签的测试样本悬链后得到语音情感标签概率,softmax输出最大概率的情感标签,结合预测出语音的情感分类,输出情感分类即为从语音中识别出来的情感。
2.根据权利要求1所述的基于图卷积神经网络的跨语料库情感识别方法,其特征在于:步骤S2具体包括:
S2.1对于Berlin库和eNTERFACE库中的音频,计算其34个声学低维描述子值和对应增量参数;所述34个声学低维描述子分别为:响度、梅尔频率倒谱系数0‑14、梅尔频带对数功率0‑7、8个线谱对频率、平滑的基频轮廓线和最终基频候选的发声概率;4个基于音高的低级描述子和对应增量参数、最后附加音高的数量和总输入的持续时间;所述4个基于音高的低级描述子分别为:基频频率、2个抖动和闪烁;描述子来源于INTERDPEECH 2010Emotion Challenge提供的功能集;
S2.2对于每个音频,利用openSMILE软件分别对其34个声学低维描述子进行21种统计函数处理,所述21种统计函数分别为为求最大值和最小值的绝对位置、平均值、斜率、偏移量、误差、标准偏差、偏度、峰度、3个第一四分位数、3个四分位数间距、最大值、最小值和两个时间百分比;对其4个基于音高的低级描述子进行19种统计函数处理,所述的19种统计函数不包括上述21个函数中的最小值和范围;
S2.3将S2.2中计算得到的每个值作为一个情感特征,并将35*2*21+4*2*19+2=1582个情感特征组成向量作为对应音频的特征向量,并将每个特征值归一化到0‑1之间,四舍五入取整。
3.根据权利要求1所述的基于图卷积神经网络的跨语料库情感识别方法,其特征在于:步骤S3具体包括:
S3.1由于两个音频数据库空间分布不同,所以运用LDA(线性判别分析),将有标签的样本按照标签信息投影到一起,形成4维数据,运用PCA(主成分分析),将没有标签的样本降维投影到低维子空间,形成50维数据;
S3.2在投影后的平面上计算每个节点与其他节点之间的欧式距离,得到每个节点与与之距离最近点的id,点与点之间距离的关系构成图的边,LDA(线性判别分析)的投影构成一张图,PCA(主成分分析)的投影构成一张图,在两个图中选择5个不同情感的点一一连接,将两张图构成一张完整的图;
S3.3将节点和边构成的图输入到两层的图卷积神经网络中,图卷积将未知标签的特征通过邻接矩阵传到已知标签的特征节点上,利用已知标签节点的分类器进行分类测试;
进一步的,图卷积神经网络模型中的传播方式为:式中, 是加上自连接的邻接矩阵,在和特征矩阵X相乘时就不会忽略该节点自(l)
己的特征,IN是单位矩阵。是 的度矩阵, W 是权值矩阵,σ是激活函数,类似于ReLU;
S3.4在投影构成的图上的卷积为频域卷积,利用图的傅里叶变换实现卷积;利用图的拉普拉斯矩阵计算出频域上的拉普拉斯算子,再类比频域上欧式空间的卷积,从而得到图卷积的公式,利用拉普拉斯矩阵L(L=D‑A)替代拉普拉斯算子和特征向量x,形成图的傅里叶变换,具体为:
T
L=UΛU
U=(u1,u2,…,un)
U是归一化图拉普拉斯矩阵L的特征向量矩阵,根据以上卷积和傅里叶变换相结合,在投影构成的图的频域卷积可以写成:在整个投影构成的图的N个节点上做卷积,那么得到的图的卷积为:将欧式空间上的卷积和图上的卷积进行对比,两者非常相似,f是特征函数,g是卷积核:
‑1
(f*g)=F [F[f]⊙F[g]]T T T T
(f*Gg)=U(Uf⊙Ug)=U(Ug⊙Uf)T
我们将Ug看成是用于频域卷积神经网络的卷积核,写成gθ,那么图上卷积的最终公式为:
T
(f*Gg)θ=UgθUf
最后,一般的频域卷积网络要计算拉普拉斯矩阵所有的特征值和特征向量,计算量很大,所以提出用切比雪夫多项式来加快特征矩阵的求解;
假设切比雪夫多项式的第k项是Tk,频域卷积核为:其中:Tk(x)=2xTk‑1(x)‑Tk‑2(x),T0(x)=1和T1(x)=x,可以归一化特征向量矩阵。所以投影构成的图的卷积公式变为:T k k T
其中 可以发现(UΛU)=UΛ U,它是一个拉普拉斯式的k阶多项式,它只依赖于中心节点k阶邻域内的节点。
4.根据权利要求1所述的基于图卷积神经网络的跨语料库情感识别方法,其特征在于:步骤S3.3具体包括:
使用一个对称邻接矩阵A,两层GCN,在投影构成的图进行半监督节点分类:首先将 进行预处理,采用了简单模型:(0) (1)
其中,W 是输入层到隐藏层的权重,W 是隐藏层到输出层的权重,采用两种不同的激活函数ReLU和softmax,在半监督分类中,评估所有标签样本的交叉熵误差:式中,yL是有标签的样本集.。