1.一种针对人脸识别的对抗攻击防御方法,其特征在于,所述方法包括以下步骤:将正常人脸图像作为良性样本,将添加扰动的人脸图像作为对抗样本;
基于良性样本和对抗样本来构建针对人脸图像识别的对抗攻击防御模型;
利用构建得到的对抗攻击防御模型来实现人脸图像识别的对抗攻击的防御;
其中,所述对抗攻击防御模型通过以下步骤构建:
(1)构建对偶式生成对抗网络,所述对偶式生成对抗网络包括对抗生成对抗网络和防御生成对抗网络,其中,所述对抗生成对抗网络包括用于基于输入的良性样本输出对抗样本的生成模型Gp和判别输入的对抗样本真伪的判别模型Dp,所述防御生成对抗网络包括用于基于输入的对抗样本输出良性样本的生成模型Gt和判别输入的良性样本真伪的判别模型Dt;
(2)利用良性样本初始化对抗生成对抗网络,利用对抗样本初始化防御生成对抗网络,具体过程为:(2‑1)将已有的良性样本true及其置信度输入至生成模型Gp,输出对抗样本truep,将对抗样本truep及其置信度输入至生成模型Gt,输出逆扰动样本true';
(2‑2)将已有的对抗样本perturb及其置信度输入至生成模型Gt,得到逆对抗样本perturbt,对逆对抗样本perturbt及其置信度输入至生成模型Gp,输出扰动样本perturb';
(3)利用对偶式生成对抗网络的损失函数训练对偶式生成对抗网络,训练结束后,以训练好的生成模型Gt和判别模型Dt组成对抗攻击防御模型,对偶式生成对抗网络的损失函数包括:判别模型Dp的损失函数 为:
判别模型Dt的损失函数 为:
生成模型Gp的损失函数 为:
loss1=a||conv(truep)‑worstp||2+b||conv(perturb')‑worstp||2loss2=c||truep‑true||2+d||perturb'‑perturb||2生成模型Gt的损失函数 为:
其中,conv(·)为置信度,conv(truep)为对抗样本truep的置信度,a,b,c和d为四个大于零的系数,||·||2为二范数,bestp表达判别模型Dp的能力足够强时,对抗样本表现出来的置信度,bestt表达判别模型Dt的能力足够强时,良性样本表现出来的置信度,worstp表达生成模型Gp的能力足够强时,对抗样本在判别模型Dp被欺骗以后表现出来的置信度,worstt表达生成模型Gt的能力足够强时,良性样本在判别模型Dt被欺骗以后表现出来的置信度。
2.如权利要求1所述的针对人脸识别的对抗攻击防御方法,其特征在于,所述生成模型Gp和所述判别模型Dp的结构复杂度相似,所述生成模型Gt和所述判别模型Dt的结构复杂度相似。
3.如权利要求1所述的针对人脸识别的对抗攻击防御方法,其特征在于,所述生成模型Gp的结构为卷积神经网络结构,所述判别模型Dp的结构为卷积神经网络结构。
4.如权利要求1所述的针对人脸识别的对抗攻击防御方法,其特征在于,所述的生成模型Gt的结构为卷积神经网络结构,所述判别模型Dt的结构为卷积神经网络结构。
5.一种针对无线信号调制类型识别的对抗攻击防御方法,其特征在于,所述方法包括以下步骤:将正常无线信号作为良性样本,将添加扰动的无线信号作为对抗样本;
基于良性样本和对抗样本来构建针对无线信号调制类型识别的对抗攻击防御模型;
利用构建得到的对抗攻击防御模型来实现无线信号调制类型识别的对抗攻击的防御;
其中,所述对抗攻击防御模型通过以下步骤构建:
(1)构建对偶式生成对抗网络,所述对偶式生成对抗网络包括对抗生成对抗网络和防御生成对抗网络,其中,所述对抗生成对抗网络包括用于基于输入的良性样本输出对抗样本的生成模型Gp和判别输入的对抗样本真伪的判别模型Dp,所述防御生成对抗网络包括用于基于输入的对抗样本输出良性样本的生成模型Gt和判别输入的良性样本真伪的判别模型Dt;
(2)利用良性样本初始化对抗生成对抗网络,利用对抗样本初始化防御生成对抗网络,具体过程为:(2‑1)将已有的良性样本true及其置信度输入至生成模型Gp,输出对抗样本truep,将对抗样本truep及其置信度输入至生成模型Gt,输出逆扰动样本true';
(2‑2)将已有的对抗样本perturb及其置信度输入至生成模型Gt,得到逆对抗样本perturbt,对逆对抗样本perturbt及其置信度输入至生成模型Gp,输出扰动样本perturb';
(3)利用对偶式生成对抗网络的损失函数训练对偶式生成对抗网络,训练结束后,以训练好的生成模型Gt和判别模型Dt组成对抗攻击防御模型,对偶式生成对抗网络的损失函数包括:判别模型Dp的损失函数 为:
判别模型Dt的损失函数 为:
生成模型Gp的损失函数 为:
loss1=a||conv(truep)‑worstp||2+b||conv(perturb')‑worstp||2loss2=c||truep‑true||2+d||perturb'‑perturb||2生成模型Gt的损失函数 为:
其中,conv(·)为置信度,conv(truep)为对抗样本truep的置信度,a,b,c和d为四个大于零的系数,||·||2为二范数,bestp表达判别模型Dp的能力足够强时,对抗样本表现出来的置信度,bestt表达判别模型Dt的能力足够强时,良性样本表现出来的置信度,worstp表达生成模型Gp的能力足够强时,对抗样本在判别模型Dp被欺骗以后表现出来的置信度,worstt表达生成模型Gt的能力足够强时,良性样本在判别模型Dt被欺骗以后表现出来的置信度。
6.如权利要求5所述的针对无线信号调制类型识别的对抗攻击防御方法,其特征在于,所述生成模型Gp和所述判别模型Dp的结构复杂度相似,所述生成模型Gt和所述判别模型Dt的结构复杂度相似。
7.如权利要求5所述的针对无线信号调制类型识别的对抗攻击防御方法,其特征在于,所述生成模型Gp的结构为卷积神经网络结构,所述判别模型Dp的结构为卷积神经网络结构。
8.如权利要求5所述的针对无线信号调制类型识别的对抗攻击防御方法,其特征在于,所述的生成模型Gt的结构为卷积神经网络结构,所述判别模型Dt的结构为卷积神经网络结构。