欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2019102311192
申请人: 宁波大学
专利类型:发明专利
专利状态:已下证
专利领域: 乐器;声学
更新日期:2024-06-17
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于融合特征的加性噪声环境下手机来源识别方法,其特征在于:所述方法包括,

步骤一、选取M个不同型号手机,每个手机获取N个人的P个语音样本,得到语音样本N×P个,并形成一个子集,将M个子集共M×N×P个语音样本构成基础语音库;其中,M≥10,N≥

10,P≥10;

步骤二、选取噪声类型X种,噪声强度Y种,得到场景噪声共X×Y种,对所述基础语音库中的每个子集中的所有语音样本添加每种场景噪声,形成M个含噪子集共M×N×P个含噪语音样本,形成一个含噪语音库,X×Y种场景噪声共得到X×Y个含噪语音库,其中,X≥2,Y≥

2;

步骤三、对所述基础语音库中每个子集中的每个语音样本进行常Q变换,得到基础语音库中第m个子集中的第n个语音样本中的第k个频率点的常Q变换域频率值Fm,n(k),频率值幅值Hm,n(k), 常Q变

换域频谱分布特征值CQTSDFm,n(k), 第n个语音样本对应

的K个频率点的常Q变换域频谱分布特征向量CQTSDFm,n,CQTSDFm,n=[CQTSDFm,n(1),…,CQTSDFm,n(k),…,CQTSDFm,n(K)];

对所述X×Y个含噪语音库中每个含噪子集的每个含噪语音样本进行相同操作,得到第i个含噪语音库中的第m个含噪子集中的第n个含噪语音样本对应的第k个频率点的常Q变换域频率值Fi,m,n(k),频率值的幅值Hi,m,n(k),常Q变换域频谱分布特征值CQTSDFi,m,n(k)以及第n个含噪语音样本对应的K个频率点的常Q变换域频谱分布特征向量CQTSDFi,m,n,i为正整数,1≤i≤X×Y,CQTSDFi,m,n的维数为1×K;

其中,m为正整数,1≤m≤M,n为正整数,1≤n≤N×P,k为正整数,1≤k≤K,K表示常Q变换的频率点的总点数,K≥9,gk为正整数,1≤gk≤Gk,Gk表示常Q变换的过程中分帧的窗口长度,zm,n(gk)表示基础语音库中的第m个子集中的第n个语音样本,w(gk)表示常Q变换的过程中采用的窗函数,e为自然基数,j为虚数单位,fk表示常Q变换的过程中采用的滤波器的中心频率, 表示第m个手机的采样率, 为Fm,n(k)的共扼,Tk表示基础语音库中的每个子集中的每个语音样本在第k个频率点处的总帧数,tk为正整数,1≤tk≤Tk,c为一个随机正数,CQTSDFm,n的维数为1×K,符号“[]”为向量表示符号,CQTSDFm,n(1)表示基础语音库中的第m个子集中的第n个语音样本对应的第1个频率点的常Q变换域频谱分布特征值,CQTSDFm,n(K)表示基础语音库中的第m个子集中的第n个语音样本对应的第K个频率点的常Q变换域频谱分布特征值;

步骤四、对所述基础语音库中的每个子集中的每个语音样本进行傅里叶变换,得到所述基础语音库中第m个子集中的第n个语音样本对应的第d个频率点的傅里叶变换域频率值Sm,n(d), 频率值的幅值Qm,n(d),傅里叶变换域频谱分布特征值STFTSDFm,n(d), 第n个语

音样本对应的D个频率点的傅里叶变换域频谱分布特征向量STFTSDFm,n,STFTSDFm,n=[STFTSDFm,n(1),…,STFTSDFm,n(d),…,STFTSDFm,n(D)];

对所述X×Y个含噪语音库中每个含噪子集的每个含噪语音样本进行相同操作,得到第i个含噪语音库中第m个含噪子集中的第n个含噪语音样本对应的第d个频率点的傅里叶变换域频率值Si,m,n(d),频率值的幅值Qi,m,n(d),傅里叶变换域频谱分布特征值STFTSDFi,m,n(d),第n个含噪语音样本对应的的D个频率点的傅里叶变换域频谱分布特征向量STFTSDFi,m,n,i为正整数,1≤i≤X×Y,STFTSDFi,m,n的维数为1×D;

其中,m为正整数,1≤m≤M,n为正整数,1≤n≤N×P,d为正整数,1≤d≤D,D表示傅里叶变换的频率点的总点数,g为正整数,1≤g≤G,G表示傅里叶变换的过程中分帧的窗口长度,zm,n(g)表示基础语音库中的第m个子集中的第n个语音样本,w(g)表示傅里叶变换的过程中采用的窗函数,e为自然基数,j为虚数单位, 为Sm,n(d)的共扼,T表示基础语音库中的每个子集中的每个语音样本的总帧数,t为正整数,1≤t≤T,c为一个随机正数,STFTSDFm,n的维数为1×D,STFTSDFm,n(1)表示基础语音库中的第m个子集中的第n个语音样本对应的第

1个频率点的傅里叶变换域频谱分布特征值,STFTSDFm,n(D)表示基础语音库中的第m个子集中的第n个语音样本对应的第D个频率点的傅里叶变换域频谱分布特征值;

步骤五、对所述基础语音库中每个子集中的每个语音样本进行傅里叶变换,得到所述基础语音库中第m个子集中的第n个语音样本中的第d个频率点的傅里叶变换域频率值Sm,n(d), 其经每个滤波器组后的对数能量Cm,n(d),再进行离散余弦变换得到

MFCC特征值MFCCm,n(a), 基础语音库中第m个子集中

的第n个语音样本对应的MFCC特征向量MFCCm,n,MFCCm,n=[MFCCm,n(1),…,MFCCm,n(a),…,MFCCm,n(A)];;

对所述X×Y个含噪语音库中每个含噪子集的每个含噪语音样本进行相同操作,得到第i个含噪语音库中第m个含噪子集中的第n个含噪语音样本对应的第a个阶特征值MFCCi,m,n(a),i为正整数,1≤i≤X×Y,MFCCi,m,n的维数为1×A;

其中,m为正整数,1≤m≤M,n为正整数,1≤n≤N×P,a为正整数,1≤a≤A,A表示MFCC特征的阶数,STFTSDFm,n的维数为1×A,MFCCm,n(1)表示基础语音库中的第m个子集中的第n个语音样本对应的第1阶特征值,MFCCm,n(A)表示基础语音库中的第m个子集中的第n个语音样本对应的第A阶特征值;

步骤六、将所述基础语音库中每个子集中的每个语音样本的常Q变换域频谱分布特征、傅里叶域频谱分布特征、MFCC特征按序排列组成一个维数为K+D+A的行向量,形成融合特征向量,得到基础语音库中第m个子集中的第n个语音样本的融合特征向量Rm,n,Rm,n=[CQTSDFm,n(1),…,CQTSDFm,n(K),STFTSDFm,n(1),…,STFTSDFm,n(D),MFCCm,n(1),…,MFCCm,n(A)];

对所述X×Y个含噪语音库中每个含噪子集的每个含噪语音样本进行相同操作,得到第i个含噪语音库中的第m个含噪子集中的第n个含噪语音样本的融合特征向量Ri,m,n,Ri,m,n=[CQTSDFi,m,n(1),…,CQTSDFi,m,n(K),STFTSDFi,m,n(1),…,STFTSDFi,m,n(D),MFCCi,m,n(1),…,MFCCi,m,n(A)],该Ri,m,n为一个维数为K+D+A的行向量;

步骤七、将所述基础语音库中第m个子集中的所有语音样本对应的融合特征向量及所有含噪语音库中的第m个含噪子集中的所有含噪语音样本对应的融合特征向量标记为第m种类别,并将其作为输入特征,输入到CNN模型中进行训练,得到M分类模型,M分类模型输出端输出类别,输出类别为M种,与选取的M个手机对应;

步骤八、取一个待识别录音,记为Vtest,按照步骤三至六操作,获得Vtest对应的融合特征向量Rtest,将Rtest输入到M分类模型,M分类模型输出端输出Rtest类别,即得到Rtest的手机来源,Rtest的维数为1×(K+D+A)。

2.根据权利要求1所述的一种基于融合特征的加性噪声环境下手机来源识别方法,其特征在于:所述步骤一中的每个手机获取N个人的P个语音样本的具体过程为,将手机置于静环境下分别采集N个不同人的语音,将采集到的每个语音转换成wav格式并将每个wav格式语音分割成多个语音片段,再从每个wav格式语音的所有语音片段中随机选取P个语音片段作为语音样本。

3.根据权利要求1所述的一种基于融合特征的加性噪声环境下手机来源识别方法,其特征在于:所述步骤一中每个手机获取N个人的P个语音样本的具体过程为,将手机置于静环境下分别采集由高保真音箱回放的N个人各自对应的P个语句,将每个语句转换成wav格式语音以作为语音样本。

4.根据权利要求1至3中任一项所述的一种基于融合特征的加性噪声环境下手机来源

识别方法,其特征在于:

所述的步骤三中, 其中,fmin表示常Q变换的过程中采用的滤波器的最低

中心频率, fmax表示常Q变换的过程中采用的滤波器的最高中心频率, B

表示常Q变换子带的频率点的点数, 符号 为向下取整符号;

其中,Q表示常Q变换的Q因子,

5.根据权利要求4所述的一种基于融合特征的加性噪声环境下手机来源识别方法,其特征在于:所述的步骤七中,CNN模型的网络框架包括输入层、第一卷积层、第一非线性激活层、第二卷积层、第二非线性激活层、最大池化层、全连接层、第三非线性激活层、输出层,输入层的输入端输入的输入特征的维数为1×K,第一卷积层有72个卷积核、卷积核的大小为1×3、卷积核的移动步长为1,第二卷积层有72个卷积核、卷积核的大小为1×2、卷积核的移动步长为1,最大池化层的核的大小为1×26、核的移动步长为1,全连接层有64个神经元,输出层的输出端输出类别,第一非线性激活层、第二非线性激活层、第三非线性激活层均采用ReLU函数,CNN模型中的Dropout损失函数的值为0.25,CNN模型中的分类器为Softmax。

6.根据权利要求2所述的一种基于融合特征的加性噪声环境下手机来源识别方法,其特征在于:所述语音片段时长为3~10秒。

7.根据权利要求3所述的一种基于融合特征的加性噪声环境下手机来源识别方法,其特征在于:所述语句时长为3秒。

8.根据权利要求1所述的一种基于融合特征的加性噪声环境下手机来源识别方法,其特征在于:所述D取值256或512或1024。