欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 201910775558X
申请人: 浙江树人学院(浙江树人大学)
专利类型:发明专利
专利状态:已下证
专利领域: 乐器;声学
更新日期:2025-04-03
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于深度自编码器的语音信号重建方法,其特征在于,包括以下步骤:步骤S101:获取编码数据并将其输入解码单元;

步骤S102:解码单元通过深度解码器神经网络对编码数据进行处理并输出解码数据;

步骤S103:对解码数据进行反归一化;

步骤S104:对经步骤S103处理后的数据进行离散傅里叶逆变换;

步骤S105:对经步骤S104处理后的数据通过叠接相加得到重建的语音信号;

其中,所述编码数据通过以下步骤得到:步骤S201:对原始语音信号进行分帧;

步骤S202:对分帧后的数据进行离散傅里叶变换;

步骤S203:对步骤S202处理的数据进行归一化;

步骤S204:将经归一化的数据输入编码单元;

步骤S205:编码单元通过深度编码器神经网络对经步骤S203归一化的数据进行处理得到编码数据;

深度编码器神经网络和深度解码器神经网络采用级联多个自编码器形成深度自编码器结构,深度自编码器结构通过以下步骤训练:步骤301:获取训练数据,训练数据为语音信号经步骤201至步骤204预处理得到;

步骤302:将训练数据输入深度自编码器神经网络并使其输出误差最小化以获得优化参数;

其中,优化参数通过最小化下式(1)得到:T

其中,n表示训练数据样本的个数,θ={W,b}和θ′={W ,b′}分别表示编码器和解码器的* ′* (i) (i) (i)参数矩阵,θ和θ 表示优化后的参数矩阵;x 为自编码器的输入,z =f′θ(fθ(x ))为自编码器输出,L(x,z)为损失函数,采用如下公式(2);

L(x,z)=E(x,z)+αP(x)(2)式(2)中,P(x)为惩罚项,α为惩罚项权重,E(x,z)采用如下公式(3):N为向量维度,k为维度下标;

步骤S303:得到优化后的深度自编码器神经网络并分别作为深度编码器神经网络和深度解码器神经网络,其中,fθ(x)表示深度编码器神经网络的映射函数,表征输入向量x到编码层表示向量y=fθ(x)之间的非线性映射关系,输出y作为编码数据;f′θ(y)表示深度解码器神经网络的映射函数,表征编码层表示向量y到重建向量z=f′θ(y)之间的非线性映射关系,输出z作为解码数据。

2.根据权利要求1所述的基于深度自编码器的语音信号重建方法,其特征在于,深度自编码器结构还采用以下步骤训练:步骤S401:采用训练数据训练第一个自编码器;

步骤S402:然后通过第一个自编码器的输出训练第二个自编码器,并依此逐层训练每一个自编码器;

步骤S403:完成所有自编码器训练后,展开级联成深度自编码器结构,并使用误差反向传播算法进行调优使其输入和输出误差最小化。

3.根据权利要求1或2所述的基于深度自编码器的语音信号重建方法,其特征在于,惩2

罚项P(x)采用高斯函数G(x),其中,G(x)的参数为:均值μ=0.5,方差σ=0.25。

4.根据权利要求1或2所述的基于深度自编码器的语音信号重建方法,其特征在于,惩2

罚项P(x)采用负平方函数S(x)=‑(x‑a) +b,其中参数a=b=0.5。

5.根据权利要求1或2所述的基于深度自编码器的语音信号重建方法,其特征在于,深度编码器神经网络采用多帧联合量化编码,深度解码器神经网络采用多帧联合量化解码。

6.根据权利要求5所述的基于深度自编码器的语音信号重建方法,其特征在于,深度编码器神经网络采用8帧联合量化编码,深度解码器神经网络采用8帧联合量化解码。

7.根据权利要求1或2所述的基于深度自编码器的语音信号重建方法,其特征在于,自编码器的个数为4。

8.根据权利要求1或2所述的基于深度自编码器的语音信号重建方法,其特征在于,编码层的节点数量为288、144、72、36或18。

9.根据权利要求1或2所述的基于深度自编码器的语音信号重建方法,其特征在于,惩罚项权重α为0.3。

10.根据权利要求6所述的基于深度自编码器的语音信号重建方法,其特征在于,所述深度编码器神经网络输入层节点为968。