知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13095918853 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13095918853

知嘟嘟经纪人

一种基于深度学习的含噪语音情感识别方法

￥23000

专利号： 2022106197713

申请人：重庆邮电大学

专利类型：发明专利

专利状态：授权未缴费

专利领域：乐器；声学

更新日期：2024-12-17

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种基于深度学习的含噪语音情感识别方法，其特征在于，包括以下步骤：S1.获取音频数据并进行预处理，得到预处理数据；

S2.提取预处理数据的Mel-spectrogram特征和时频特征，随机屏蔽Mel-spectrogram特征的频域与时域得到随机屏蔽特征；

S3.构建语音情感识别网络，采用时频特征和随机屏蔽特征组合得到的混合特征训练语音情感识别网络；语音情感识别网络包括时频嵌入模块、绝对位置编码模块、混合特征图分块模块和骨干模型，骨干模型由多个结构相同的重复模块堆叠而成，每个重复模块的输入是动态变化的，重复模块包括层归一化单元、多头块注意力计算单元、频域压缩与信道增强单元、下采样与通道扩张模块和前馈神经网络单元；

S4.利用训练好的语音情感识别网络对待测语音信息进行识别。

2.根据权利要求1所述的一种基于深度学习的含噪语音情感识别方法，其特征在于，获取混合特征的过程为：提取预处理数据的Mel-spectrogram特征，表示为：M＝log(melW·(STFT(X))2)

随机屏蔽Mel-spectrogram特征的频域与时域得到随机屏蔽特征，表示为：M′＝Specaugment(M)

利用堆叠的残差一维卷积提取预处理数据的时频特征，表示为：N＝StackedConv1D(X)

将时频特征与随机屏蔽特征组合得到混合特征，表示为：F＝concat([M′,N],dim＝1)

其中，X∈R(B,T)表示预处理数据，表示快速傅里叶变换，melW表示梅尔滤波器组，表示随机屏蔽时域和频域的数据增强操作，表示残差一维卷积，表示拼接组合，M表示Mel-spectrogram特征，M′表示随机屏蔽特征，N表示时频特征，F表示混合特征。

3.根据权利要求1所述的一种基于深度学习的含噪语音情感识别方法，其特征在于，频域压缩与信道增强单元的处理过程为：将多头注意力单元的输出进行频域压缩，得到压缩特征；

对压缩特征进行逐帧的自注意力计算，并对逐帧自注意力计算的输出进行带有平滑因子的通道增强。

4.根据权利要求1所述的一种基于深度学习的含噪语音情感识别方法，其特征在于，语音情感识别网络的训练过程包括：S11.采用二维卷积对混合特征进行时频嵌入，得到高维度特征；

S12.对高维度特征中的每一个音频帧进行绝对位置编码；

S13.将绝对位置编码后的高维度特征进行分块，得到多个频谱块；

S14.将所有频谱块输入骨干模型进行计算，直至所有频谱块计算完成；