1.一种面向深度强化学习模型的特征过滤防御方法,包括以下步骤:(1)针对生成连续行为的DDPG模型,包括actor网络和critic网络,其中,所述actor网络包括动作估计网络和动作实现网络,所述critic网络包括状态估计网络和状态实现网络,对所述深度强化学习模型DDPG进行预训练,并将预训练阶段的当前状态、行为、奖励值以及下一状态保存在缓存区;
(2)训练自编码器,并利用训练好的自编码器的编码器对输入状态进行特征过滤,获得过滤后的输入状态对应的特征图,并保存到缓存区;
(3)对预训练后的DDPG模型中的卷积核进行剪枝,利用剪枝后的DDPG模型进行动作预测,输出并执行预测动作。
2.如权利要求1所述的面向深度强化学习模型的特征过滤防御方法,其特征在于,所述深度强化学习模型DDPG的预训练过程包括:针对状态估计网络,以实际Q值与估计Q值的平方损失为损失函数来更新状态估计网络的参数;
针对动作估计网络,利用损失梯度来更新动作估计网络的参数;
将所述状态估计网络的参数复制给状态实现网络,以更新状态实现网络的参数;
将所述动作估计网络的参数复制给动作实现网络,以更新动作实现网络的参数。
3.如权利要求1所述的面向深度强化学习模型的特征过滤防御方法,其特征在于,所述自编码器包括编码器和解码器两部分;
针对编码器部分的训练,首先采用RBM网络对编码器的卷积层进行逐层训练,逐层训练结束后,根据编码器输入状态与解码器的输出状态的相似度来更新编码器所有卷积层的参数;
针对解码器部分的训练,直接采用编码器的输入状态与解码器的输出状态的损失来更新解码器的参数。
4.如权利要求2所述的面向深度强化学习模型的特征过滤防御方法,其特征在于,采用以下公式计算编码器输入状态与解码器的输出状态的相似度KL(q(s)||p(s)):其中,q(s)是输入状态对应的概率分布,p(s)是解码器的输出状态对应的概率分布,s表示输入状态,Ω表示状态总和。
5.如权利要求1所述的面向深度强化学习模型的特征过滤防御方法,其特征在于,所述利用训练好的自编码器的编码器对输入状态进行特征过滤,获得过滤后的输入状态对应的特征图的过程包括:采用在伯努利随机变量X(i,j,k)对每个状态矩阵的位置(i,j,k)进行随机采样得到一组随机值;
计算该一组随机值与位置(i,j,k)对应值总方差,以总方差最小化为目标滤除或保留位置(i,j,k)对应值,以实现对输入状态的特征过滤。
6.如权利要求1所述的面向深度强化学习模型的特征过滤防御方法,其特征在于,对预训练后的DDPG模型中的卷积核进行剪枝包括:在结构剪枝过程中,细化了一组参数,这组参数保留了自适应网络的准确性,L(D|χ′)≈L(D|χ),相当于一个组合优化:min|L(D|χ′)-L(D|χ)|s.t||χ′||0≤η,其中,D表示缓存区,参数χ包括动作估计网络的参数θ和状态估计网络的参数w,参数χ″表示对参数θ和参数w剪枝后剩下参数,L(D|χ)表示根据缓存区D中的状态和动作值在参数χ下计算的损失函数值,表示根据缓存区D中的状态和动作值在参数χ″下计算的损失函数值;
从一组参数χ开始,迭代地识别和删除最不重要的参数,通过在每次迭代中删除参数,以确保最终满足||χ″||0≤η。