1.一种语音情感识别方法,其特征在于,包括:
获取原始语音集,所述原始语音集包括对话者语音和说话者语音;
将所述原始语音集输入至语音情感识别模型,获得所述语音情感识别模型输出的所述说话者语音的识别结果;
其中,所述语音情感识别模型是基于语音样本以及对应的识别标签进行训练后得到的,用于基于所述对话者语音对所述说话者语音的影响对所述说话者语音进行语音情感识别;所述识别标签是根据所述语音样本预先确定的,并与所述语音样本一一对应;所述语音样本包括对话者语音样本和说话者语音样本;
所述语音情感识别模型包括:特征提取模块、多模态特征融合模块、对话者影响力模块和分类模块;
所述将所述原始语音集输入至语音情感识别模型,获得所述语音情感识别模型输出的所述说话者语音的识别结果,具体包括:将所述原始语音集输入至所述特征提取模块,获得所述特征提取模块输出的语音特征、文本特征、第一矩阵和第二矩阵;
将所述语音特征和所述文本特征输入至所述多模态特征融合模块,获得所述多模态特征融合模块输出的融合特征;
将所述融合特征、所述第一矩阵和所述第二矩阵输入至所述对话者影响力模块,获得所述对话者影响力模块输出的影响融合特征;
将所述影响融合特征输入至分类模块,获得所述分类模块输出的识别结果;
其中,所述第一矩阵用于分离所述对话者语音对所述说话者语音的影响;所述第二矩阵用于分离所述说话者语音的信息。
2.根据权利要求1所述的语音情感识别方法,其特征在于,所述将所述融合特征、所述第一矩阵和所述第二矩阵输入至对话者影响力模块,获得影响融合特征,具体包括:基于所述融合特征和所述第一矩阵获得影响信息矩阵,所述影响信息矩阵用于表示所述对话者语音对所述说话者的影响;
将所述影响信息矩阵与内容向量相加获得第二融合特征,所述内容向量是基于所述融合特征获得的;
将所述第二融合特征与所述第二矩阵点乘,获得所述影响融合特征。
3.根据权利要求2所述的语音情感识别方法,其特征在于,所述基于所述融合特征和所述第一矩阵获得影响信息矩阵,具体包括:将所述融合特征经过第一全连接层,获得查询矩阵;
将所述融合特征经过第二全连接层,获得被查矩阵;
将所述融合特征经过第三全连接层,获得内容向量;
基于所述第一矩阵、所述查询矩阵、所述被查矩阵、所述内容向量和预设影响力公式获得所述影响信息矩阵。
4.根据权利要求3所述的语音情感识别方法,其特征在于,所述预设影响力公式为:T
其中,Y为所述影响信息矩阵, 为softmax函数,K为所述查询矩阵,Q为所述被查矩阵的转置,mask1为所述第一矩阵,V为所述内容向量。
5.根据权利要求2‑4中任一项所述的语音情感识别方法,其特征在于,所述将所述影响融合特征输入至分类模块,获得所述分类模块输出的识别结果,具体包括:将所述影响融合特征依次输入长短期记忆循环神经网络、全连接层和softmax函数,获得分类结果。
6.根据权利要求2‑4中任一项所述的语音情感识别方法,其特征在于,所述将所述语音特征和所述文本特征输入至多模态特征融合模块,获得融合特征,具体包括:基于所述语音特征与所述原始语音集中每一句语音的对应关系,和所述文本特征与所述原始语音集中每一句语音的对应关系,将所述语音特征和所述文本特征进行对齐;
将所述对齐后的语音特征和所述文本特征进行拼接融合,得到所述融合特征。
7.一种语音情感识别装置,其特征在于,包括:
获取单元,用于获取原始语音集,所述原始语音集包括对话者语音和说话者语音;
识别单元,用于将所述原始语音集输入至语音情感识别模型,输出所述说话者语音的识别结果;
其中,所述语音情感识别模型是基于语音样本以及对应的识别标签进行训练后得到的;所述识别标签是根据所述语音样本预先确定的,并与所述语音样本一一对应;所述语音情感识别模型用于基于所述对话者语音的影响对所述说话者语音进行语音情感识别;
所述语音情感识别模型包括:特征提取模块、多模态特征融合模块、对话者影响力模块和分类模块;
所述将所述原始语音集输入至语音情感识别模型,获得所述语音情感识别模型输出的所述说话者语音的识别结果,具体包括:将所述原始语音集输入至所述特征提取模块,获得所述特征提取模块输出的语音特征、文本特征、第一矩阵和第二矩阵;
将所述语音特征和所述文本特征输入至所述多模态特征融合模块,获得所述多模态特征融合模块输出的融合特征;
将所述融合特征、所述第一矩阵和所述第二矩阵输入至所述对话者影响力模块,获得所述对话者影响力模块输出的影响融合特征;
将所述影响融合特征输入至分类模块,获得所述分类模块输出的识别结果;
其中,所述第一矩阵用于分离所述对话者语音对所述说话者语音的影响;所述第二矩阵用于分离所述说话者语音的信息。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述语音情感识别方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述语音情感识别方法的步骤。