1.基于注意力机制的特征融合用于语音情感识别的方法,其特征在于:实现包括以下步骤:步骤一:情感特征提取
提取MFCC特征和韵律特征P;
步骤二:数据预处理
①、统计提取的MFCC特征中每个句子的时间步{Ln|L1,L2,…,Ln,n∈N+},其中Ln表示每个句子经过特征提取后的时间步,n表示句子数量;
②、计算时间步的平均长度和时间步的标准差;
平均长度
标准差
③、统一每个句子的时间步时间步Tn=Lave+Lsta④、填充,裁减每个句子
每个句子都和时间步Tn比较,如果大于Tn,则裁减大于Tn部分;当小于Tn使用零去填充,使之等于Tn,最后的得到的数据为{XT|X1,X2,…,XT,T∈N},其中XT表示一个句子,T表示每个句子的时间步,其中T=750;
步骤三:建立基于注意力机制的长短期记忆网络解码器①、长短期记忆网络解码
HT=LSTM(XT),T∈{0,1,…,750}其中HT为长短期记忆网络的隐藏状态;
②、注意力加权
f(HT)=tanh(wTHT+b)vT=softmax(f(HT))eT=vTHT
其中最后输出eT为加权后的三维矩阵,w和b为可训练参数,vT为中间变量,f(·)为相关度函数;
步骤四:建立基于注意力机制的时间卷积网络解码器①、时间卷积网络解码
CT=TCN(XT,k,hd),其中CT为时间卷积网络解码的三维向量,k为卷积核大小,hd为隐藏层大小,d为TCN的隐藏层数;
②、注意力加权
f(CT)=tanh(wTCT+b)aT=softmax(f(CT))其中sT为注意力加权后的二维向量,w和b为可训练参数,aT为中间变量;
步骤五:建立基于注意力机制的特征融合层DT=matmul(eT,sT)AT=softmax(DT)其中WT为非线性融合后的特征,DT表示eT与sT的相关度函数,AT为中间变量;
步骤六:建立输出层
y=softmax(concat(WT,sT,P)M+b)其中P为韵律特征,y为最后输出结果,M和b为网络的可训练参数。