欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2017105509257
申请人: 宁波大学
专利类型:发明专利
专利状态:已下证
专利领域: 乐器;声学
更新日期:2024-06-17
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于语音频谱融合特征的手机来源识别方法,其特征在于包括以下步骤:

①利用M个不同的手机,获得N个人的每人对应的P个语音样本,将每个手机对应的共N×P个语音样本构成一个语音库;其中,M>1,N≥1,1≤P≤10;

②对每个手机对应的语音库中的每个语音样本进行分帧加窗处理,得到每个手机对应的语音库中的每个语音样本的T帧;然后对每个手机对应的语音库中的每个语音样本中的每帧进行快速傅里叶变换,得到每个手机对应的语音库中的每个语音样本中的每帧的J个频率点各自的频率值;接着在频域计算每个手机对应的语音库中的每个语音样本中的每帧的前个频率点中的每个频率点的频率值的幅值,将第m个手机对应的语音库中的第p个语音样本中的第t帧的第k个频率点的频率值的幅值记为||xm,p,t(k)||,其中,对每个手机对应的语音库中的每个语音样本进行分帧加窗处理时所采用的窗函数选择汉明窗窗函数,T>1,J为快速傅里叶变换的点数,J的取值为512或1024,1≤m≤M,1≤p≤N×P,1≤t≤T, xm,p,t(k)表示第m个手机对应的语音库中的第p个语音样本中的第t帧的第k个频率点的频率值, 为xm,p,t(k)的共扼;

③计算每个手机对应的语音库中的每个语音样本的所有帧的前 个频率点中的每个频率点的频率值的幅值沿时间轴的统计平均值,将第m个手机对应的语音库中的第p个语音样本的所有帧的第k个频率点的频率值的幅值沿时间轴的统计平均值记为xm,p(k),然后计算每个手机对应的语音库中的每个语音样本的所有帧的前 个频率点中的每个频率点的概率,将第m个手机对应的语音库中的第p个语音样本的所有帧的第k个频率点的概率记为prm,p(k), 再计算每个手机对应的语音库中的每个语音样本的所有帧的前 个频率点中的每个频率点的统计平均信息量特征,将第m个手机对应的语音库中的第p个语音样本的所有帧的第k个频率点的统计平均信息量特征记为Im,p(k),Im,p(k)=-log2(prm,p(k));

计算每个手机对应的语音库中的每个语音样本的所有帧的前 个频率点中的每个频率点的统计平均对数谱特征,将第m个手机对应的语音库中的第p个语音样本的所有帧的第k个频率点的统计平均对数谱特征记为Lm,p(k), 其中,eps为一个用于防止||xm,p,t(k)||+eps为0的随机正数;

计算每个手机对应的语音库中的每个语音样本的所有帧的前 个频率点中的每个频率点的统计平均相位谱特征,将第m个手机对应的语音库中的第p个语音样本的所有帧的第k个频率点的统计平均相位谱特征记为 其中,表示第m个手机对应的语音库中的第p个语音样本中的第t帧的第k个频率点的相位谱特征,-1

tan ()为求反正切函数,sin()为求正弦函数,

cos()为求余弦函数,xm,p,t(q)表示第m个手机对应的语音库中的第p个语音样本中的第t帧的第q个频率点的频率值,1≤q≤J;

④将每个手机对应的语音库中的每个语音样本的所有帧的前 个频率点的统计平均信息量特征、统计平均对数谱特征、统计平均相位谱特征按序排列组成一个维数为的行向量,作为每个手机对应的语音库中的每个语音样本的频谱融合特征,将第m个手机对应的语音库中的第p个语音样本的频谱融合特征记为Rm,p,;然后将

所有手机对应的语音库中的所有语音样本的频谱融合特征组成一个维数为的频谱融合特征矩阵;接着对频谱融合特征矩阵中的每个元素进行归一化处理;之后利用BestFirst搜索算法和CfsSubsetEval属性评估算法,对归一化后的频谱融合特征矩阵进行特征选择,得到一个最优特征矩阵,最优特征矩阵的行数为M×N×P行、列数大于1且小于 再将最优特征矩阵中的每一行作为对应的语音样本的最终频谱融合特征;其中,Im,p(1)表示第m个手机对应的语音库中的第p个语音样本的所有帧的第1个频率点的统计平均信息量特征, 表示第m个手机对应的语音库中的第p个语音样本的所有帧的第 个频率点的统计平均信息量特征,Lm,p(1)表示第m个手机对应的语音库中的第p个语音样本的所有帧的第1个频率点的统计平均对数谱特征,表示第m个手机对应的语音库中的第p个语音样本的所有帧的第 个频率点的统计平均对数谱特征, 表示第m个手机对应的语音库中的第p个语音样本的所有帧的第1个频率点的统计平均相位谱特征, 表示第m个手机对应的语音库中的第p个语音样本的所有帧的第 个频率点的统计平均相位谱特征;

⑤按照网格化方法对基于径向基核函数的LibSVM中的惩罚系数和伽马系数进行交叉验证,得到惩罚系数和伽马系数的组合的最优值;然后根据惩罚系数和伽马系数的组合的最优值,对M×N×P个语音样本的最终频谱融合特征以K-折交叉验证方式进行模型训练和测试样本识别;其中,网格化方法采用5×5的网格,惩罚系数的取值范围为20到50,伽马系数的取值范围是0.1到2,K-折交叉验证中的参数K的取值范围为大于或等于2。

2.根据权利要求1所述的一种基于语音频谱融合特征的手机来源识别方法,其特征在于所述的步骤①的具体过程为:取M个不同的手机,并选取N个不同年龄不同性别的人;然后利用M个手机同时采集每个人用正常的语速朗读固定内容的语音,每个手机共采集到N个语音,M个手机共采集到M×N个语音,要求每个语音的时长至少为3分钟;接着将每个手机采集到的每个语音转换成wav格式语音;之后将每个手机对应的每个wav格式语音分割成3~10秒的语音片段,并取每个手机对应的每个wav格式语音的P个语音片段作为语音样本;再将每个手机对应的共N×P个语音样本构成一个语音库。

3.根据权利要求1所述的一种基于语音频谱融合特征的手机来源识别方法,其特征在于所述的步骤①的具体过程为:利用M个不同的手机,同时采集由高保真音箱回放的TIMIT库中N个人的每人P个3秒的语句作为语音样本;再将每个手机对应的共N×P个语音样本构成一个语音库。