1.一种基于对抗式生成网络的深度学习对抗性攻击防御方法,其特征在于,所述方法包括以下步骤:
1)基于生成对抗网络在学习样本分布中表现出来的高性能,设计了通过生成对抗网络生成对抗样本的方法,过程如下:
1.1)AG表示用于生成对抗样本的生成网络,称为攻击者,AG的输入是正常样本xnor,输出是扰动ρ;D表示判别网络,其本质是一个编码器和解码器,输入包括正常样本xnor和叠加了AG生成的扰动的对抗样本xadv,输出的ynor'和yavd'分别对应输入xnor和xadv的重构结果,TMi表示将被攻击的目标模型集合,i∈{1,2,...,n},其原始功能是对正常样本和对抗样本进行期望分类,输出为li和 类标;bus表示挂载目标模型的模型总线;在增加了目标模型网络集合TMi后,基于G网络的样本生成变成了一个多目标的优化问题;
AG-GAN模型中对抗样本xadv的生成表示为:
式(1)中,ωD表示判别器D在训练过程中对生成的对抗样本的区分能力;ωi表示对抗样本对每个目标模型TMi攻击能力的期望强度;LossD(·,·)和 分别表示判别网络和目标模型的损失函数;
对于AG-GAN模型的训练主要是对生成网络G和判别网络D的参数训练,分为三个模块。
1.2)模块一 固定生成网络G的参数训练判别网络D的参数,将G的输出xadv和正常样本xnor作为D的输入,D网络的参数优化目标表示为:式(2)中,lDx和lDGz分别表示D网络对输入数据xnor和对xadv=G(z)的期望输出类标,当实际的预测类标越接近期望的输出,目标函数的值越小,下同;同时,根据扰动ρ的要求,通过设置ωD的值改变D网络对于对抗样本xadv的预测能力;
1.3)模块二 固定判别网络D的参数训练生成网络G的参数,将噪声z或者正常样本xnor作为G网络的输入,xadv=G(z)表示输出的对抗样本,G网络的参数优化目标表示为:
1.4)模块三 将待攻击的目标模型TMi挂载到bus总线,通过TMi的输出结果训练生成网络G的参数,G网络的参数优化目标表示为:式(4)中,通过设置总线上的ωi值调整生成的对抗样本攻击各个目标模型的泛化能力强弱;
1.5)最后,将网络G和网络D的三个训练优化模块进行整合,得到AG-GAN模型最终的目标函数:通过以上分析可知,影响最后对抗样本生成效果的因素主要包括训练权重ωD,ωi,具体形式表现为各个模型间交替训练次数的比例;此外总线上挂载的目标模型的类型和数量也会直接或者间接影响对抗样本的生成,其中目标模型的类型包括模型所实现的任务类型、模型的结构和模型的参数训练方式;
2)利用AG-GAN生成的对抗样本训练被攻击的深度学习模型,从而提高其防御不同种对抗样本的能力。