欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2019108199726
申请人: 浙江工业大学
专利类型:发明专利
专利状态:已下证
专利领域: 乐器;声学
更新日期:2023-12-11
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于布谷鸟搜索算法的声纹识别攻击防御方法,包括以下步骤:(1)准备原始音频数据集:采集不同说话者说不同内容的语音音频并进行预处理,按照一定比例分成预训练数据集、测试数据集和用于生成对抗样本的扰动数据集,其具体过程如下;

Step11:采集不同的说话者说确定内容的音频,即设共有M个不同的说话者,N个不同的说话内容,则每一个样本可以表示为xij(1≤i≤M,1≤j≤N),即第i个说话者说第j个内容的音频样本;

为了使声纹识别模型具有较强的稳定性,在噪声环境下也能够提取有效信息实现正确的识别,采集的音频样本中包括安静和嘈杂环境;同时在音频采集过程中改变说话者和录音设备的距离,来模拟真实声纹识别场景中的说话者音量大小不一致的情形;为了提高后续声纹识别的准确率,在采集音频的过程中尽可能保证说话者的发音较为标准;

Step12:将上述采集的音频进行裁剪以及添加相应的标签并处理成数据流格式的音频文件,作为训练、测试声纹识别模型以及生成对抗样本所需要的数据;

Step13:将经过预处理后的音频按照一定比例分成预训练数据集、测试数据集和用于生成对抗样本的扰动数据集;

(2)训练声纹识别模型:搭建声纹识别模型并初始化相关参数,利用预处理好的数据集对声纹识别模型进行训练,并使用测试数据集测试模型的准确率,若不能达到预设的准确率,则调整声纹识别模型的结构、参数,重新训练测试,使得声纹识别模型能够达到预设的识别准确率,对于正常情况下的音频能够达到较好的识别效果;声纹识别的具体过程如下;

Step21:提取音频的特征向量;将原始音频以25ms为帧长,以10ms为步长进行分割后,计算每一帧的梅尔倒谱系数,每一帧的倒谱系数为一个13维的向量;计算每一帧的能量以及其倒谱系数的一阶和二阶差分值,最终得到每一帧40维的特征向量;

Step22:搭建声纹识别模型;搭建基于LSTM结构的声纹识别模型,设置隐藏单元数量为

768;

Step23:设置相关参数并进行训练;设样本xij经过声纹识别模型后的输出向量为eij,则对于第k个说话者,其M个不同说话内容对应的质心ck为:则对于样本xij,利用余弦相似度定义其与第k个说话者之间的距离;

sij,k=w·cos(eij,ck)+b                (2)其中,cos(·)表示余弦相似度,w和b是模型训练过程中可以调整的参数;

定义模型训练的损失函数:

其中,‑sij,i表示样本xij与其所对应的第i个说话者质心的距离, 表示该样本与其他说话者质心的距离;该损失函数使得每个样本尽可能靠近其所对应类别的质心,而远离其他所有类别的质心;

之后,设定批量训练的相关参数,并利用随机梯度下降优化算法训练模型最小化损失函数;

Step24:用测试数据集测试识别模型的准确率,确保达到预设的识别准确率,否则修改模型的结构和参数重新进行训练;

(3)攻击声纹识别模型:搭建基于布谷鸟搜索算法的攻击方法,设置适应度函数及攻击方法的相关参数;利用该攻击方法生成最优扰动,并叠加到原始样本上,使得生成的对抗样本被错误识别而不被人耳所识别;攻击声纹识别模型,生成对抗样本的过程如下;

Step31:初始化适应度函数,定义适应度函数如下;

其中,‑sij,m表示样本xij与其目标分类类别对应的第m个说话者质心的距离,表示样本与除第m个说话者外质心的距离, 中x表示生成的对抗样本,x0表示原始音频,通过L2范数来衡量对抗样本与原始音频样本之间的差异;另外,上述适应度函数中的c为一个常数,实现了不同衡量标准间的归一化;

Step32:初始化群体;设置群体的数量G,随机初始化扰动,使得初始扰动与原始音频矩阵的形状相同,将这些随机生成的矩阵叠加到原始音频上最终得到初始对抗样本,设为X={x1,x2,...,xG}.

Step33:利用莱维飞行生成新的个体,其具体的生成算法如下;

其中, 表示第i个个体在第k次更新后生成的个体, 表示点对点乘法,α是步长缩放因子,Levy(β)表示莱维随机搜索路径,服从莱维概率分布:‑β

Levy~u=t (1≤β≤3)                 (6)具体地,通过下式更新个体的位置:2

其中,rand1是满足正态分布N(0,σ)的随机数,rand2是满足标准正态分布的随机数,σ满足:

通常,β=1.5;

计算每个个体的适应度,记为 表示第i个个体在第k次更新后的适应度,群体中最优个体适应度记为Xbest,则步长的更新满足下式:其中,α0为常数;

Step34:随机选取一个个体,若通过莱维飞行生成的新个体的适应度大于该个体的适应度,则进行替换;

Step35:以概率P舍弃适应度较低的个体,并生成新的个体进行替换;

Step36:若迭代次数达到设定的最大迭代次数或者生成的对抗样本能够分类为目标类别,则停止迭代,并将对抗样本矩阵转换为音频,若不满足上述条件,则重复Step33‑Step35中的步骤,对群体继续迭代寻优;

(4)对抗训练声纹识别模型:将步骤(3)中生成的样本加入与训练数据集中,重新训练声纹识别模型,使得重新训练的声纹识别模型具有防御对抗样本攻击的能力,提高声纹识别模型的安全性和稳定性。