1.一种面向强化学习的异常数据检测防御方法,其特征在于,包括以下步骤:
(1)搭建小车自动驾驶环境,并基于根据小车自动驾驶环境提供的状态数据,采用深度确定性策略梯度算法进行强化学习,生成驾驶状态数据作为训练样本;
(2)利用所述训练样本训练由生成器和判别器组成的生成式对抗网络;
所述判别器是一个二分类判别器,采用交叉熵来表示,用于判别下一时刻的预测驾驶状态数据和下一时刻的真实驾驶状态数据的真伪;
训练时,从训练数据集中采集T个时刻正常的小车驾驶状态 作为样本数据,交叉熵表示为:其中minmax表示纳什均衡中的最大最小目标函数,pdata(xs)表示来自样本数据的分布,第一项中的logD(x)表示判别器对真实数据的判断,第二项log(1‑D(x))表示对生成数据的判断通过这样一个最大最小博弈过程,循环交替优化生成器G和判别器D来训练所需要的生成式网络和判别式网络,直至达到纳什均衡点;
(3)采集驾驶状态数据,利用训练好的生成器生成根据当前时刻驾驶状态数据得到的下一时刻的预测驾驶状态数据;
(4)利用训练好的判别器判别下一时刻的真实驾驶状态数据和预测驾驶状态数据是否正常,当下一刻的真实驾驶状态数据异常,预测驾驶状态数据正常,利用预测驾驶状态数据替换真实驾驶状态数据,包括:若所述判别器的输出表示其来自于真实驾驶状态数据,则表明预测驾驶状态数据和真实驾驶状态数据相似,该真实驾驶状态数据有效;
若所述判别器的输出表示其来自于生成器输出的预测驾驶状态数据,则表明预测驾驶状态数据异于真实驾驶状态数据,则认为真实驾驶状态数据脱离之前的预测驾驶状态数据分布,则将该真实驾驶状态数据作为异常数据点处理,利用预测驾驶状态数据取代真实驾驶状态数据。
2.如权利要求1所述的面向强化学习的异常数据检测防御方法,其特征在于,所述采用深度确定性策略梯度算法进行强化学习生成驾驶状态数据包括:利用主网络的主策略网络基于当前时刻的驾驶状态数据st产生动作at,并利用主网络的主价值Q网络计算动作at的奖励值rt,并将当前时刻的驾驶状态数据st、动作at、奖励值rt以及下一时刻的驾驶状态数据st+1存储到缓冲区内;
利用目标网络的目标价值Q网络根据缓冲区的奖励值rt和驾驶状态数据st+1计算累积奖励值r,根据奖励值和累积奖励值计算损失函数,利用损失函数更新主价值Q网络的参数;
根据参数更新后的主价值Q网络计算的动作at的更新价值和主策略网络产生的动作变化值计算累计奖励函数的梯度,利用该梯度来更新主策略网络的参数;
根据主策略网络参数和主价值Q网络参数采用软更新方式更新目标策略网络参数和目标价值Q网络参数。
3.如权利要求1所述的面向强化学习的异常数据检测防御方法,其特征在于,所述生成器用于根据当前时刻的驾驶状态数据生成下一时刻的预测驾驶状态数据,所述生成器包括:生成器网络模型使用3层卷积神经网络结构作为隐层,隐层中使用批标准化,使用ReLU作为激活函数,最后一层使用tanh激活函数,生成器模型优化器使用Adam优化器。