1.一种适用于目标识别的对抗样本防御模型训练系统,用于获得对抗样本防御模型,作为预训练目标识别模型的前端预处理模型,对预训练目标识别模型的输入样本进行预处理,去除输入样本中的干扰,其特征在于:包括对抗样本生成模块、对抗样本还原模块,目标场景的原始图像样本输入对抗样本生成模块,对抗样本生成模块基于目标场景中的目标对象生成原始图像样本对应的对抗样本;对抗样本还原模块基于对抗样本生成模块生成的对抗样本,以该对抗样本对应的原始图像样本为基准对该对抗样本进行还原,获得还原样本;
结合预训练目标识别模型,对对抗样本生成模块、对抗样本还原模块进行训练,获得最优对抗样本防御模型训练系统;进而将最优对抗样本防御模型训练系统中的对抗样本还原模块作为对抗样本防御模型对预训练目标识别模型的输入样本进行预处理,去除输入样本中的干扰;
对抗样本生成模块包括生成器、判别器、分类器,对抗样本还原模块包括还原器,生成器分别与还原器、判别器、分类器连接,目标场景的原始图像样本输入生成器,生成器基于目标场景中的目标对象输出该原始图像样本对应的对抗样本,并将该对抗样本分别传输给还原器、判别器、分类器;判别器基于原始图像样本、以及该原始图像对应的对抗样本分别进行样本类别的判别;分类器基于对抗样本对目标对象进行分类识别;还原器基于对抗样本以其对应的原始图像样本为基准对对抗样本进行还原,获得还原样本;
生成器与所述还原器结构相同,均包括编码器、瓶颈层、解码器、截断模块,所述生成器和还原器的输入数据顺序经编码器、瓶颈层、解码器输出对应的输出数据,编码器对输入数据进行下采样,获得输入数据的预设语义特征;瓶颈层对编码器输出的语义特征进行特征映射聚合,进而获得对于输入数据的预设扰动;解码器对瓶颈层输出的扰动进行上采样,获得与输入数据尺寸大小相同的扰动;基于输入数据与解码器输出的扰动,通过截断模块获得对应的输出数据;对抗样本生成模块的分类器采用预训练目标识别模型。
2.一种适用于目标识别的对抗样本防御模型的训练方法,应用于权利要求1所述对抗样本防御模型训练系统,其特征在于:针对目标场景的原始图像样本,迭代执行以下步骤,基于判别器、生成器、还原器分别对应的损失,训练判别器、生成器、以及还原器,获得最优对抗样本防御模型训练系统,进而获得对抗样本防御模型,即最优对抗样本防御系统中的还原器:步骤A:目标场景的原始图像样本输入生成器,基于目标场景中的目标对象,生成器输出该原始图像样本对应的对抗样本;
步骤B:原始图像样本对应的对抗样本、以及该对抗样本对应的原始图像分别输入判别器,分别对原始图像样本和对抗样本进行样本类别的判别,获得原始图像样本判别损失、以及对抗样本判别损失,进而获得判别损失;
步骤C:原始图像样本对应的对抗样本输入对抗样本生成模块的分类器,对对抗样本中目标对象进行分类识别,进而结合原始图像样本中目标对象的分类,获得对抗损失;
步骤D:基于对抗样本判别损失、对抗损失,获得生成损失;
步骤E:原始图像样本对应的对抗样本输入还原器,对对抗样本进行还原,获得对抗样本对应的还原样本,进而结合原始图像样本,获得还原损失。
3.根据权利要求2所述一种适用于目标识别的对抗样本防御模型的训练方法,其特征在于:所述判别器、生成器、以及还原器的训练利用反向传播及梯度下降技术,基于判别损失、生成损失、以及还原损失,优化判别器、生成器、还原器中的参数。
4.根据权利要求2所述一种适用于目标识别的对抗样本防御模型的训练方法,其特征在于:所述步骤A中生成原始图像样本对应的对抗样本的具体过程如下:步骤A1:将原始图像样本输入生成器,通过编码器进行下采样,提取原始图像样本中目标对象的语义特征;
步骤A2:基于原始图像样本中目标对象的语义特征,经瓶颈层进行特征映射聚合,进而获得对原始图像样本中于目标对象语义特征的扰动;
步骤A3:基于目标对象语义特征的扰动,经解码器进行上采样,将目标对象语义特征的扰动放大至原始图像样本的尺寸,获得放大的扰动;
步骤A4:将放大的扰动与原始图像样本叠加,获得初始对抗样本;针对初始对抗样本经截断模块基于预设像素值进行截断,进而获得对抗样本。
5.根据权利要求4所述一种适用于目标识别的对抗样本防御模型的训练方法,其特征在于:所述步骤E中生成对抗样本对应的还原样本的具体过程如下:步骤E1:将对抗样本输入还原器,通过编码器进行下采样,提取对抗样本中未受扰动的语义特征;
步骤E2:基于编码器提取的语义特征,经瓶颈层进行特征映射聚合,拟合生成器中的特征扰动分布,进而获得还原扰动;
步骤E3:基于还原扰动,经解码器进行上采样,将还原扰动放大至原始图像的尺寸,获得放大的还原扰动;
步骤E4:将放大的还原扰动与对抗样本叠加,获得初始还原样本;针对初始还原样本经截断模块基于预设像素值进行截断,生成还原样本。
6.根据权利要求2所述一种适用于目标识别的对抗样本防御模型的训练方法,其特征在于:所述判别损失计算表达式如下所示:其中,
式中, 表示判别损失, 表示原始图像样本判别损失, 表示抗样本判别损失, 表示判别器基于原始图像输出的预测标签, 判别器基于对抗样本输出的预测标签;
所述生成损失计算表达式如下所示:
其中,
式中, 和 为预设常数因子, 表示生成损失, 表示对抗损失, 表示添加到原始图像样本上的对抗扰动, 表示对抗样本,表示原始图像样本, 表示损失函数平衡参数, 表示对抗样本的分类结果,表示除原始图像样本标签外的其他标签,表示原始图像样本的标签,表示对抗样本置信度控制参数, 表示神经网络全连接层的输出;
所述还原损失计算表达式如下所示:
式中, 表示还原损失,为原始图像样本, 为还原器输出的还原样本, 表示生成器的输出, 表示还原器的输出, 表示针对还原的样本像素值截断操作。
7.一种基于权利要求2所述对抗样本防御模型的应用方法,其特征在于:针对最优对抗样本防御模型训练系统中的对抗样本防御模型,基于预训练目标识别模型的输入样本,执行以下步骤,对输入样本进行目标识别;
步骤1:获取最优对抗样本防御模型训练系统中的对抗样本防御模型;
步骤2:以预训练目标识别模型的输入样本为输入,利用对抗样本防御模型对输入样本进行预处理,去除样本干扰,更新输入样本;
步骤3:将输入样本输入预训练目标识别模型进行目标识别。