欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 202010364837X
申请人: 杭州电子科技大学
专利类型:发明专利
专利状态:已下证
专利领域: 乐器;声学
更新日期:2023-07-19
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.基于注意力机制的特征融合用于语音情感识别的方法,其特征在于:实现包括以下步骤:步骤一:情感特征提取

提取MFCC特征和韵律特征P;

步骤二:数据预处理

①、统计提取的MFCC特征中每个句子的时间步{Ln|L1,L2,…,Ln,n∈N+},其中Ln表示每个句子经过特征提取后的时间步,n表示句子数量;

②、计算时间步的平均长度和时间步的标准差;

平均长度

标准差

③、统一每个句子的时间步时间步Tn=Lave+Lsta④、填充,裁减每个句子

每个句子都和时间步Tn比较,如果大于Tn,则裁减大于Tn部分;当小于Tn使用零去填充,使之等于Tn,最后的得到的数据为{XT|X1,X2,…,XT,T∈N},其中XT表示一个句子,T表示每个句子的时间步,其中T=750;

步骤三:建立基于注意力机制的长短期记忆网络解码器①、长短期记忆网络解码

HT=LSTM(XT),T∈{0,1,…,750}其中HT为长短期记忆网络的隐藏状态;

②、注意力加权

f(HT)=tanh(wTHT+b)vT=softmax(f(HT))eT=vTHT

其中最后输出eT为加权后的三维矩阵,w和b为可训练参数,vT为中间变量,f(·)为相关度函数;

步骤四:建立基于注意力机制的时间卷积网络解码器①、时间卷积网络解码

CT=TCN(XT,k,hd),其中CT为时间卷积网络解码的三维向量,k为卷积核大小,hd为隐藏层大小,d为TCN的隐藏层数;

②、注意力加权

f(CT)=tanh(wTCT+b)aT=softmax(f(CT))其中sT为注意力加权后的二维向量,w和b为可训练参数,aT为中间变量;

步骤五:建立基于注意力机制的特征融合层DT=matmul(eT,sT)AT=softmax(DT)其中WT为非线性融合后的特征,DT表示eT与sT的相关度函数,AT为中间变量;

步骤六:建立输出层

y=softmax(concat(WT,sT,P)M+b)其中P为韵律特征,y为最后输出结果,M和b为网络的可训练参数。