1.一种面向深度强化学习模型对抗攻击的防御方法,其特征在于,所述防御方法包括以下步骤:利用基于生成式对抗网络构建的视觉预测模型对输入的前一时刻环境状态进行预测输出预测当前环境状态,并获得预测当前环境状态在深度强化学习策略下的下一帧预测环境状态值;
获取深度强化学习模型输出的实际当前环境状态,并获得实际当前环境状态在深度强化学习策略下添加扰动的环境状态值;
利用基于生成式对抗网络构建的判别模型对预测环境状态值和添加扰动的环境状态值进行判别,根据判别结果获得深度强化学习模型是否被攻击;
在深度强化学习模型被攻击时,提取实际当前环境状态,利用基于SqueezeNet的第一防御模型对实际当前环境状态进行第一层防御,利用基于DenseNet的第二防御模型对第一层防御结果进行第二层防御,获得防御后的实际当前环境状态;
深度强化学习模型利用防御后的实际当前环境状态进行学习预测输出。
2.如权利要求1所述的面向深度强化学习模型对抗攻击的防御方法,其特征在于,所述视觉预测模型和判别模型的构建过程为:所述视觉预测模型包括递归编码单元、转换行为单元以及解码单元,其中,所述递归编码单元包括依次连接的至少2个卷积层、至少2个全连接层,用于对输入的环境状态进行特征提取,输出环境状态特征;
所述转换行为单元包括LSTM和融合操作,用于提取输入行为的隐含特征,并对行为的隐含特征和环境状态特征进行融合输出融合特征;
所述解码单元包括至少2个全连接层和至少2个反卷积层,用于对融合特征进行解码,输出下一时刻的预测环境状态;
所述判别模型包括神经网络,其用于对所述视觉预测模型输出的预测环境状态与实际环境状态进行特征提取,基于提取的特征计算预测环境状态与实际环境状态的差距大小以判别实际环境状态是否含有扰动;
利用训练样本对由所述视觉预测模型和所述判别模型组成的生成式对抗网络进行对抗训练,获得训练好的视觉预测模型和判别模型。
3.如权利要求2所述的面向深度强化学习模型对抗攻击的防御方法,其特征在于,在LSTM中,在时间t处编码的特征向量 为:其中,ct∈Rn是一个内存单元,它保留来自输入的历史的信息,CNN(xt)作为LSTM的输入,使LSTM能够从空间特征中获取时间相关性信息。
4.如权利要求2所述的面向深度强化学习模型对抗攻击的防御方法,其特征在于,所述训练样本的构建过程为:利用训练好DQN产生每一时刻的奖励值、行为以及下一环境状态,每个时刻的环境状态、行为、奖励值以及下一状态组成的四元组作为一个正常样本;
对正常样本中的环境状态添加扰动后形成一个对抗样本,在对抗训练阶段,对抗样本作为实际环境状态对判别模型和视觉预测模型进行训练。
5.如权利要求1所述的面向深度强化学习模型对抗攻击的防御方法,其特征在于,判别模型计算预测环境状态值和添加扰动环境状态值的差距值,根据差距值与阈值的大小关系确定深度强化学习模型是否被攻击,计算公式为:其中, 为DQN的策略网络,为预测环境状态, 为受攻击状态。
6.如权利要求1所述的面向深度强化学习模型对抗攻击的防御方法,其特征在于,所述第一防御模型包括两个卷积层、三个最大池化层、一个平均池化层以及八个Fire Module。