1.一种基于深度学习的含噪语音情感识别方法,其特征在于,包括以下步骤:S1.获取音频数据并进行预处理,得到预处理数据;
S2.提取预处理数据的Mel-spectrogram特征和时频特征,随机屏蔽Mel-spectrogram特征的频域与时域得到随机屏蔽特征;
S3.构建语音情感识别网络,采用时频特征和随机屏蔽特征组合得到的混合特征训练语音情感识别网络;语音情感识别网络包括时频嵌入模块、绝对位置编码模块、混合特征图分块模块和骨干模型,骨干模型由多个结构相同的重复模块堆叠而成,每个重复模块的输入是动态变化的,重复模块包括层归一化单元、多头块注意力计算单元、频域压缩与信道增强单元、下采样与通道扩张模块和前馈神经网络单元;
S4.利用训练好的语音情感识别网络对待测语音信息进行识别。
2.根据权利要求1所述的一种基于深度学习的含噪语音情感识别方法,其特征在于,获取混合特征的过程为:提取预处理数据的Mel-spectrogram特征,表示为:M=log(melW·(STFT(X))2)
随机屏蔽Mel-spectrogram特征的频域与时域得到随机屏蔽特征,表示为:M′=Specaugment(M)
利用堆叠的残差一维卷积提取预处理数据的时频特征,表示为:N=StackedConv1D(X)
将时频特征与随机屏蔽特征组合得到混合特征,表示为:F=concat([M′,N],dim=1)
其中,X∈R(B,T)表示预处理数据,表示快速傅里叶变换,melW表示梅尔滤波器组,表示随机屏蔽时域和频域的数据增强操作,表示残差一维卷积,表示拼接组合,M表示Mel-spectrogram特征,M′表示随机屏蔽特征,N表示时频特征,F表示混合特征。
3.根据权利要求1所述的一种基于深度学习的含噪语音情感识别方法,其特征在于,频域压缩与信道增强单元的处理过程为:将多头注意力单元的输出进行频域压缩,得到压缩特征;
对压缩特征进行逐帧的自注意力计算,并对逐帧自注意力计算的输出进行带有平滑因子的通道增强。
4.根据权利要求1所述的一种基于深度学习的含噪语音情感识别方法,其特征在于,语音情感识别网络的训练过程包括:S11.采用二维卷积对混合特征进行时频嵌入,得到高维度特征;
S12.对高维度特征中的每一个音频帧进行绝对位置编码;
S13.将绝对位置编码后的高维度特征进行分块,得到多个频谱块;
S14.将所有频谱块输入骨干模型进行计算,直至所有频谱块计算完成;
S15.对S14的计算结果进行全局平均池化后,采用带平滑因子的交叉熵计算损失并反向传播优化语音情感识别网络参数。
5.根据权利要求4所述的一种基于深度学习的含噪语音情感识别方法,其特征在于,带平滑因子的交叉熵表示为:其中,qi代表第i个类别的预测概率,K代表情感类别总数,α表示平滑因子,target表示原始标签,zi表示全局平均池化后的结果。