知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13095918853 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13095918853

知嘟嘟经纪人

一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法

面议

专利号： 2020112284739

申请人：杭州电子科技大学

专利类型：发明专利

专利状态：已下证

专利领域：乐器；声学

更新日期：2024-02-23

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法，其特征在于，包括以下步骤：S1、采集语音情感数据集，获取干净语音的语谱图数据集以及干净语音加噪后的加噪语谱图数据集；

S2、将干净语音的语谱图数据集中的干净语谱图和加噪语谱图数据集中的加噪语谱图输入基于矩阵距离的条件生成对抗网络MD‑CGAN进行去噪模型的训练，得到去噪模型；

S3、利用去噪模型对加噪语谱图进行去噪处理，得到去噪语谱图；对去噪语谱图分别进行两个不同尺度的双边滤波，得到低尺度滤波图和高尺度滤波图，低尺度滤波图和高尺度滤波图相差再乘以增强系数得到去噪细节图的估计，然后与低尺度滤波图相加，得到细节增强的语谱图；

S4、引入卷积神经网络并迁移其预训练的卷积层权重参数，接着将细节增强的语谱图输入卷积神经网络中进行分类，得到分类模型；

S5、待识别语音的语谱图经过步骤S3中对语谱图的处理，得到待识别语音对应的细节增强的语谱图，并将其输入分类模型，得到语音情感分类结果；

所述步骤S2，包括：

对于加噪语谱图的条件生成对抗网络CGAN的训练目标如下：其中，D代表判决器，G表示生成器，V(D,G)表示去噪语谱图和干净的语谱图的差异程度；E为数学期望，x表示干净语谱图，pdata(x)表示干净语谱图的概率分布；z表示加噪语谱图，pz(z)为加噪语谱图的概率分布；y表示语音的情感标签，D(x|y)表示输入x和y时，判决器判定其为干净的语谱图的概率；

去噪模型的训练过程，包括以下步骤：

(1)给定生成器模型，优化判决器，判决器为一个二分类模型，用于判定输入的语谱图是干净语谱图还是加噪语谱图；

(2)在判决器取得优的情况下，训练生成器；生成器的训练目标是将输出的去噪语谱图能混淆判定器，使得判定器将去噪语谱图判定为1，即干净语谱图；

基于矩阵距离的条件生成对抗网络MD‑CGAN，通过在生成器的损失函数中加入语谱图的矩阵距离参数来对语谱图的生成过程进行约束；

所述语谱图的矩阵距离参数通过计算两个语谱图整体的欧氏距离得到，将语谱图损失和对抗损失结合起来共同作为损失方程，得到改进后的损失方程如下：其中，Ig表示生成器的输出，即去噪语谱图；Ix表示干净语谱图，pG(x)表示通过生成器去噪之后的语谱图的概率分布，w、h、c分别指语谱图的宽、高和通道数；

(3)返回步骤(1)直到训练达到最优值，得到去噪模型。

2.如权利要求1所述的一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法，其特征在于，所述步骤S1，包括：对语音情感数据集中的每个语音信号进行分帧、加窗的预处理，然后进行短时离散傅里叶变化，得到频谱X(k)：其中，N为窗长，x(n)为语音信号，w(n)为汉明窗函数，k为语音的频率，i是虚函数单位，n为时序采样点；

再以对数振幅描述来生成语谱图：

S(k,t)＝20×log10|Xt(k)|

其中，Xt(k)为t时刻的频谱；

对语谱图按照情感类别设置相应的情感标签。

3.如权利要求1所述的一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法，其特征在于，所述步骤S3中，所述双边滤波的算法如下：基于空间距离的权重因子生成，通过当前点与中心点的空间距离并使用如下公式计算滤波输出

2 2 2

||Sp‑Sq||＝(xp‑xq) +(yp‑yq)

其中，(xp，yp)为当前位置，(xq，yq)为中心点的位置，σs为空间域标准差，σs越小，对图片的模糊度越小；

基于灰度距离的权重因子的生成，主要通过两个当前灰度与中心点灰度的灰度距基于值域的权重因子的生成，主要通过两个当前灰度与中心点灰度的灰度距离计算

2 2

||Vp‑Vq||＝(gray(xp,yp)‑gray(xq,yq))其中，V代表值域信息，gray(xp,yp)为当前灰度值，gray(xq,yq)为中心点灰度值，σr为值域标准差，σr越小，权重越小；离中心点位置越近，权重越大；

双边滤波图像输出计算：