1.一种基于神经元激活模式的深度学习样本级对抗攻击防御方法,其特征在于,包括以下步骤:
构建用于目标识别的深度学习模型,深度学习模型包括卷积层、池化层以及分类层;
从深度学习模型的网络层中提取特征图构建神经元激活模式,神经元激活模式和交叉熵函数组成损失函数;
利用正常图像样本对深度学习模型进行训练时,采用构建的损失函数优化深度学习模型的参数;
根据损失函数的梯度得到像素增量作为防御对抗攻击的扰动;
利用参数优化的深度学习模型进行目标识别时,将待识别的图像添加扰动后输入至深度学习模型,经计算得到目标识别结果。
2.如权利要求1所述的基于神经元激活模式的深度学习样本级对抗攻击防御方法,其特征在于,所述神经元激活模式包括显著神经元激活模式SFP和非显著神经元激活模式TFP;
其中,显著神经元激活模式SFP表示为:非显著神经元激活模式TFP表示为:表示神经元被用于分类到c类的重要性,其为反向传播的梯度,表示为:k c
A表示深度学习模型的最后一层池化层的第k张激活的特征图,y 表示类标为c的正常图像样本x对应的输入分类层的特征图,i表示特征图的宽度,j表示特征图的长度,Z表示特征图中的像素特征,Relu(·)表示激活函数,Index(·)表示取神经元的序号,t表示选取尾部神经元的个数,max(·)表示为激活值的排序从大到小。
3.如权利要求2所述的基于神经元激活模式的深度学习样本级对抗攻击防御方法,其特征在于,构建的损失函数loss为:其中,Hi(yi,y′i)表示第i个正常图像样本的标签yi与预测置信度y′i的交叉熵函数,n表示正常图像样本个数,λ1和λ2表示平衡超参数。
4.如权利要求1所述的基于神经元激活模式的深度学习样本级对抗攻击防御方法,其特征在于,将扰动添加到图像之后,还需要对图像的像素进行约束处理。
5.如权利要求4所述的基于神经元激活模式的深度学习样本级对抗攻击防御方法,其特征在于,约束处理过程为:
其中,x'表示添加有扰动的图像,L(x')表示图像x'的像素值,min(·)和max(·)分别表示取最小值和最大值。
6.如权利要求1所述的基于神经元激活模式的深度学习样本级对抗攻击防御方法,其特征在于,还包括:基于正常图像样本构建扰动图像样本,利用扰动图像样本评估参数优化的深度学习模型的防御能力;
在构建扰动图像样本时,采用FGSM攻击、MI‑FGSM攻击、C&W攻击、DeepFool攻击、JSMA攻击以及UAP攻击,攻击正常图像样本得到扰动图像样本。
7.如权利要求6所述的基于神经元激活模式的深度学习样本级对抗攻击防御方法,其特征在于,评估评估参数优化的深度学习模型的防御能力时,采用以下三种指标:评估扰动图像样本的攻击成功率ASR;
评估正常图像样本叠加扰动后,分类错误的假阳性率FPR;
评估扰动图像样本叠加扰动后,分类正确的防御成功率DSR。
8.一种基于神经元激活模式的深度学习样本级对抗攻击防御装置,包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序,其特征在于,所述处理器执行计算机程序时实现权利要求1~7任一项所述的基于神经元激活模式的深度学习样本级对抗攻击防御方法。