1.一种基于协同多任务训练的对抗攻击防御方法,包括以下步骤:
利用FGSM,IGSM,JSMA,C&W l2,Deepfool五种攻击方法对每类原始图像进行攻击处理,获得针对每类原始图像的五种对抗样本,将这五种对抗样本分别对应输入至五个图像分类模型中,输出5组预测置信度数列;
对每组预测置信度数列中预测置信度按照降序排序后,将预测置信度对应的图像类标记为一个类标数列;
统计5个类标数列中,图像类标出现次数最小的类标即为最难攻击类标,这样针对每张原始图像会有唯一一个正常类标和唯一一个最难攻击类标,且正常类标和最难攻击类标是一一对应关系;
选择图像分类模型中的任意一个作为预测分类器,将预测分类器的输出并行连接第一置信度层和第二置信度层,第一置信度层和第二置信度层之间连接有第一梯度锁定器,第一置信度层和第二置信度层的输出分别连接第一softmax和第二softmax,形成检测通道;
将原始图像和对抗样本作为预测分类器的输入,以原始图像的正确类标和最难攻击类标作为预测分类器的输出,预测输出和真实输出的交叉熵作为损失函数,对检测通道进行训练;
将预测分类器的输出连接第三置信度层,第三置信度层与第二置信度层之间连接有第二梯度锁定器,第三置信度层的输出连接有第三softmax,形成防御通道,将对抗样本作为输入,将对抗样本的正确类标作为输出,以预测输出和真实输出的交叉熵作为损失函数,对防御通道进行训练;
将待检测样本输入至训练好的检测通道中,经比较预测输出与最难攻击类标的对应关系,确定待检测样本为对抗样本;
将对抗样本输入至训练好的防御通道中,经计算输出对抗样本的正确类标,以实现对待检测样本的防御。
2.如权利要求1所述的基于协同多任务训练的对抗攻击防御方法,其特征在于,所述第一梯度锁定器和第二梯度锁定器为至少两个依次连接的全连接层,第一梯度锁定器的输入为第二置信度层的输出,第一梯度锁定器用于对第二置信度层的输出进行全连接操作,并对全连接操作结果和第一置信度层的输出进行相乘,以实现梯度协同;与第一梯度锁定器相同,第二梯度锁定器的输入为第二置信度层的输出,第二梯度锁定器用于对第三置信度层的输出进行全连接操作,并对全连接操作结果和第二置信度层的输出进行相乘,以实现梯度协同。
3.如权利要求2所述的基于协同多任务训练的对抗攻击防御方法,其特征在于,在训练检测通道时,损失函数为:其中,J(·,·)为交叉熵函数,J(·,·)为反交叉熵函数, 为类标为i的原始图像,为原始图像的正确类标, 为原始图像的对抗样本,yrobust为原始图像的最难攻击类标,α、β以及γ为权重参数。
4.如权利要求2所述的基于协同多任务训练的对抗攻击防御方法,其特征在于,在训练防御通道时,损失函数为:其中,J(·,·)为交叉熵函数, 为原始图像的正确类标, 为原始图像的对抗样本。
5.如权利要求1所述的基于协同多任务训练的对抗攻击防御方法,其特征在于,所述利用FGSM,IGSM,JSMA,C&W l2,Deepfool五种攻击方法对每类原始图像进行攻击处理,获得针对每类原始图像的五种对抗样本包括:对于FGSM,对抗样本 为:
其中, 为第i种原始图像, 为原始图像的正确标签, 为模型M的预测输出,L(·)为损失函数Loss, 表示对图像x求导,sgn(·)表示符号函数,ε为控制扰动大小的超参数;
对于IGSM,对抗样本 为:
其中, 表示第j次迭代生成的对抗样本, 表示第j-1次迭代输入的第i类的原始图像, 表示第j-1次迭代生成的对抗样本,clipε(·)表示clip函数,将函数值限定在扰动ε范围内,α表示步长,一般设为1;
对于JSMA,对抗样本 为:
根据输入实例计算神经网络输出的前向导数,然后利用对抗性显著性图来决定需要被加入扰动的关键像素点,并对这些关键像素点增加扰动,得到的对抗样本记为对于C&Wl2,对抗样本 为:其中,ρ为增加扰动,D(·)为带有二范数的距离矩阵,c为权重参数,对抗样本 即为对于Deepfool,对抗样本 为:
将扰动反复迭代直至图片被误判断,即获得抗样本 每次迭代中对图像的修改计算公式为:其中,ri为在图像上增加的扰动,
6.如权利要求3所述的基于协同多任务训练的对抗攻击防御方法,其特征在于,权重参数α=β=0.4,γ=0.2。