1.一种基于语谱图的语音情绪识别方法,其特征在于,包括:实时获取语音信号,将语音信号转化为语谱图;将语谱图输入到训练好的语音情绪识别模型中,识别语音情绪;所述语音情绪识别模型包括基于注意力机制的残差神经网络和长短时记忆神经网络LSTM;
训练语音情绪识别模型的过程包括:
S1:获取原始语音信号,将原始语音信号转换为语谱图;
S2:将所有的语谱图进行集合,将集合进行分类得到训练集和测试集;
S3:将训练集中的数据中的语谱图输入到基于注意力机制的残差神经网络中,提取语谱图的加权时频情感特征图;
S31:将语谱图输入到残差神经网络的第一卷积层中提取特征,得到浅层特征;
S32:采用至少8个残差块对浅层特征进行深层特征提取,得到部分时域情感特征和部分频域情感特征;其中,残差块的卷积层分别用于提取浅层特征的部分时域和频域的情感特征;残差块中的恒等映射层分别用于传递上一个残差块中浅层特征的部分时域和频域情感特征;
S33:将时域情感特征与频域特征的维度统一,得到具有相同维度的时域情感特征和频域情感特征;
S34:采用注意力机制模块对所有的时域情感特征和所有的频域情感特征进行加权融合处理,得到有注意力权重的时域情感特征图和带有注意力权重的频域情感特征图;
S35:将带有注意力权重的时域情感特征图和带有注意力权重的频域情感特征图进行融合,得到加权后的时频情感特征图;
S4:将加权时频情感特征图输入到长短时记忆神经网络LSTM中提取时频情感特征图的时域特征,得到时域特征图;
S5:采用归一化指数函数softmax对时域特征图进行归一化处理,得到情感分类结果;
S6:根据分类结果计算模型的损失函数;
S7:将测试集数据输入到模型中,不断调整损失函数的参数,当损失函数最小时,完成模型的训练。
2.根据权利要求1所述的一种基于语谱图的语音情绪识别方法,其特征在于,将语音信号转化为语谱图的过程包括:步骤1:对语音信号进行预加重处理,提高语音的高频信号;
步骤2:对加重的语音信号进行分帧处理,得到分帧后的语音信号;
步骤3:将分帧后的语音信号进行加窗处理,增加相邻两帧信号之间的流畅性;
步骤4:对加窗后的分帧语音信号进行傅里叶变换,得到语谱图。
3.根据权利要求2所述的一种基于语谱图的语音情绪识别方法,其特征在于,采用汉明窗对信号进行加窗处理,加窗的公式为:W(n)=0.54‑0.46cos[2πn/(N‑1)],0≤n≤N‑1其中,n表示语音信号,N表示帧长。
4.根据权利要求2所述的一种基于语谱图的语音情绪识别方法,其特征在于,对加窗后的分帧语音信号进行傅里叶变换的公式为:jw
其中,e 表示正弦波,S(n)表示语音信号,W(n‑m)表示窗函数,n表示第n帧语音信号,m表示加窗之后的第m帧语音信号。
5.根据权利要求1所述的一种基于语谱图的语音情绪识别方法,其特征在于,采用注意力机制模块对时域情感特征和频域情感特征进行加权融合处理的过程包括:步骤41:将时域情感特征图输入到通道注意力模块中,得到时域通道注意力权重;
步骤42:采用softmax函数将时域通道注意力权重进行归一化处理;
步骤43:将归一化处理后的时域通道注意力权重和输入的时域情感特征图做元素乘法操作,得到通道注意力时域情感特征图;
步骤44:将带有通道注意力时域情感特征图输入到空间模块中,提取空间注意力权重;
步骤45:将空间注意力权重与输入的时域情感特征图做元素相乘,并经过激活函数处理生成空间注意力时域情感特征图;
步骤46:将空间注意力时域情感特征图和通道注意力权重时域情感特征图进行卷积操作,得到带有注意力权重的时域情感特征图;
步骤47:将频域情感特征图做与时域情感特征图相同的操作,得到带有注意力权重的频域情感特征图。
6.根据权利要求5所述的一种基于语谱图的语音情绪识别方法,其特征在于,通道注意力权重的公式为:Mc(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F)))其中,AvgPool(F)表示对特征图进行平均池化操作,F表示特征图,MLP(.)表示多层感知机,MaxPool(F)表示对特征图进行最大池化操作,σ(.)表示sigmoid激活函数。
7.根据权利要求5所述的一种基于语谱图的语音情绪识别方法,其特征在于,空间注意力权重的计算公式为:
7×7
Ms(F)=σ(f ([AvgPool(F);MaxPool(F)]))其中,AvgPool(F)表示对特征图进行平均池化操作,F表示特征图,MLP(.)表示多层感
7×7
知机,MaxPool(F)表示对特征图进行最大池化操作,σ(.)表示sigmoid激活函数,f (.)表示卷积核为7×7的卷积操作。
8.根据权利要求1所述的一种基于语谱图的语音情绪识别方法,其特征在于,采用长短时记忆神经网络LSTM对加权后的时频情感特征图进行处理的过程包括:步骤1:将加权后的时频情感特征图输入到长短时记忆神经网络LSTM的遗忘门中,得到上一时刻的细胞内部状态丢弃的信息;
步骤2:将经过遗忘门的信息输入到输入门中,得到当前的细胞状态添加的新信息;
步骤3:将经过输入门的信息输入到输出门中,得到时域特征图。
9.根据权利要求1所述的一种基于语谱图的语音情绪识别方法,其特征在于,损失函数的公式为:f(x)=max(0,x)
其中,x表示进入神经元的来自上一层神经网络的输入向量,f(x)表示线性整流函数。