1.一种基于常Q变换域的加性噪声环境下手机来源识别方法,其特征在于包括以下步骤:
步骤一:选取M个不同主流品牌不同型号的手机;然后使用每个手机获取N个人各自对应的P个语音样本,每个手机对应的语音样本共有N×P个;再将每个手机对应的所有语音样本构成一个子集,将M个子集共M×N×P个语音样本构成基础语音库;其中,M≥10,N≥10,P≥10;
步骤二:选取不同噪声类型不同噪声强度的场景噪声共X×Y种,噪声类型共X种,噪声强度共Y种;然后采用噪声添加工具在基础语音库中的每个子集中的所有语音样本中添加每种场景噪声,将基础语音库中的每个子集中的所有语音样本添加一种场景噪声后得到的含噪语音样本构成一个含噪子集,将针对添加一种场景噪声得到的M个含噪子集共M×N×P个含噪语音样本构成一个含噪语音库,针对X×Y种场景噪声共得到X×Y个含噪语音库;其中,X≥2,Y≥2;
步骤三:对基础语音库中的每个子集中的每个语音样本进行常Q变换,将基础语音库中的每个子集中的每个语音样本变换到频域,将基础语音库中的第m个子集中的第n个语音样本对应的第k个频率点的频率值记为Fm,n(k), 然后计算基础语音库中的每个子集中的每个语音样本对应的每个频率点的频率值的幅值,将Fm,n(k)的幅值记为Hm,n(k), 接着计算基础语音库中的每个子集
中的每个语音样本对应的每个频率点的频谱分布特征值,将基础语音库中的第m个子集中的第n个语音样本对应的第k个频率点的频谱分布特征值记为SSFm,n(k),
再将基础语音库中的每个子集中的每个语音样本对应的
K个频率点的频谱分布特征值构成频谱分布特征向量,将基础语音库中的第m个子集中的第n个语音样本对应的频谱分布特征向量记为SSFm,n,SSFm,n=[SSFm,n(1),…,SSFm,n(k),…,SSFm,n(K)];其中,m为正整数,1≤m≤M,n为正整数,1≤n≤N×P,k为正整数,1≤k≤K,K表示常Q变换的频率点的总点数,K≥9,gk为正整数,1≤gk≤Gk,Gk表示常Q变换的过程中分帧的窗口长度,zm,n(gk)表示基础语音库中的第m个子集中的第n个语音样本,w(gk)表示常Q变换的过程中采用的窗函数,e为自然基数,j为虚数单位,fk表示常Q变换的过程中采用的滤波器的中心频率, 表示第m个手机的采样率, 为Fm,n(k)的共扼,Tk表示基础语音库中的每个子集中的每个语音样本在第k个频率点处的总帧数,tk为正整数,1≤tk≤Tk,c为一个随机正数,SSFm,n的维数为1×K,符号“[]”为向量表示符号,SSFm,n(1)表示基础语音库中的第m个子集中的第n个语音样本对应的第1个频率点的频谱分布特征值,SSFm,n(K)表示基础语音库中的第m个子集中的第n个语音样本对应的第K个频率点的频谱分布特征值;
采用相同的操作方式对每个含噪语音库中的每个含噪子集中的每个含噪语音样本进行处理,获得每个含噪语音库中的每个含噪子集中的每个含噪语音样本对应的各个频率点的频率值、各个频率点的频率值的幅值、各个频率点的频谱分布特征值、频谱分布特征向量,将第i个含噪语音库中的第m个含噪子集中的第n个含噪语音样本对应的第k个频率点的频率值记为Fi,m,n(k),将第i个含噪语音库中的第m个含噪子集中的第n个含噪语音样本对应的第k个频率点的频率值的幅值记为Hi,m,n(k),将第i个含噪语音库中的第m个含噪子集中的第n个含噪语音样本对应的第k个频率点的频谱分布特征值记为SSFi,m,n(k),将第i个含噪语音库中的第m个含噪子集中的第n个含噪语音样本对应的频谱分布特征向量记为SSFi,m,n;其中,i为正整数,1≤i≤X×Y,SSFi,m,n的维数为1×K;
步骤四:对基础语音库中的每个子集中的每个语音样本对应的频谱分布特征向量及每个含噪语音库中的每个含噪子集中的每个含噪语音样本对应的频谱分布特征向量进行类别标记,将基础语音库中的第m个子集中的所有语音样本对应的频谱分布特征向量及所有含噪语音库中的第m个含噪子集中的所有含噪语音样本对应的频谱分布特征向量标记为第m种类别;然后将基础语音库中的所有子集中的语音样本对应的频谱分布特征向量及所有含噪语音库中的含噪子集中的含噪语音样本对应的频谱分布特征向量作为输入特征,输入到CNN模型中进行训练,训练得到M分类模型,M分类模型的输出端用于输出类别,输出的类别为M种,与选取的M个手机一一对应;
步骤五:取一个待识别的语音,记为Vtest;然后按照步骤三的过程,以相同的操作方式获得Vtest对应的频谱分布特征向量,记为SSFtest;再将SSFtest输入到训练得到的M分类模型中进行分类别,M分类模型的输出端输出SSFtest的类别,即得到SSFtest的手机来源;其中,SSFtest的维数为1×K。
2.根据权利要求1所述的一种基于常Q变换域的加性噪声环境下手机来源识别方法,其特征在于所述的步骤一中,使用每个手机获取N个人各自对应的P个语音样本的具体过程为:选取N个不同年龄不同性别的人,使用M个手机在安静办公室环境下同时采集每个人用正常的语速朗读固定内容的语音,每个手机共采集到N个语音,M个手机共采集到M×N个语音,要求每个语音的时长至少为3分钟;然后将每个手机采集到的每个语音转换成wav格式语音;接着将每个手机对应的每个wav格式语音分割成多个时长为3~10秒的语音片段;再从每个手机对应的每个wav格式语音的所有语音片段中随机选取P个语音片段作为语音样本。
3.根据权利要求1所述的一种基于常Q变换域的加性噪声环境下手机来源识别方法,其特征在于所述的步骤一中,使用每个手机获取N个人各自对应的P个语音样本的具体过程为:使用M个手机在安静办公室环境下同时采集由高保真音箱回放的N个人各自对应的P个时长为3秒的语句;然后将每个手机采集到的每个语句转换成wav格式语音;再将每个手机对应的每个wav格式语音作为语音样本。
4.根据权利要求1至3中任一项所述的一种基于常Q变换域的加性噪声环境下手机来源识别方法,其特征在于所述的步骤三中, 其中,fmin表示常Q变换的过程中采用的滤波器的最低中心频率, fmax表示常Q变换的过程中采用的滤波器的最高中心频率, B表示常Q变换每倍程的频率点的点数, 符号为向下取整符号; 其中,Q表示常Q变换的Q因子,
5.根据权利要求4所述的一种基于常Q变换域的加性噪声环境下手机来源识别方法,其特征在于所述的步骤四中,CNN模型的网络框架包括输入层、第一卷积层、第一非线性激活层、第二卷积层、第二非线性激活层、最大池化层、全连接层、第三非线性激活层、输出层,输入层的输入端输入的输入特征的维数为1×K,第一卷积层有72个卷积核、卷积核的大小为1×3、卷积核的移动步长为1,第二卷积层有72个卷积核、卷积核的大小为1×2、卷积核的移动步长为1,最大池化层的核的大小为1×26、核的移动步长为1,全连接层有64个神经元,输出层的输出端输出类别,第一非线性激活层、第二非线性激活层、第三非线性激活层均采用ReLU函数,CNN模型中的Dropout损失函数的值为0.25,CNN模型中的分类器为Softmax。