欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020100718775
申请人: 浙江工业大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2023-12-11
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种面向强化学习的异常数据检测防御方法,其特征在于,包括以下步骤:

(1)搭建小车自动驾驶环境,并基于根据小车自动驾驶环境提供的状态数据,采用深度确定性策略梯度算法进行强化学习,生成驾驶状态数据作为训练样本;

(2)利用所述训练样本训练由生成器和判别器组成的生成式对抗网络;

(3)采集驾驶状态数据,利用训练好的生成器生成根据当前时刻驾驶状态数据得到的下一时刻的预测驾驶状态数据;

(4)利用训练好的判别器判别下一时刻的真实驾驶状态数据和预测驾驶状态数据是否正常,当下一刻的真实驾驶状态数据异常,预测驾驶状态数据正常,利用预测驾驶状态数据替换真实驾驶状态数据。

2.如权利要求1所述的面向强化学习的异常数据检测防御方法,其特征在于,所述采用深度确定性策略梯度算法进行强化学习生成驾驶状态数据包括:利用主网络的主策略网络基于当前时刻的驾驶状态数据st产生动作at,并利用主网络的主价值Q网络计算动作at的奖励值rt,并将当前时刻的驾驶状态数据st、动作at、奖励值rt以及下一时刻的驾驶状态数据st+1存储到缓冲区内;

利用目标网络的目标价值Q网络根据缓冲区的奖励值rt和驾驶状态数据st+1计算累积奖励值r,根据奖励值和累积奖励值计算损失函数,利用损失函数更新主价值Q网络的参数;

根据参数更新后的主价值Q网络计算的动作at的更新价值和主策略网络产生的动作变化值计算累计奖励函数的梯度,利用该梯度来更新主策略网络的参数;

根据主策略网络参数和主价值Q网络参数采用软更新方式更新目标策略网络参数和目标价值Q网络参数。

3.如权利要求1所述的面向强化学习的异常数据检测防御方法,其特征在于,所述生成器用于根据当前时刻的驾驶状态数据生成下一时刻的预测驾驶状态数据,所述生成器包括:生成器网络模型使用3层卷积神经网络结构作为隐层,隐层中使用批标准化,使用ReLU作为激活函数,最后一层使用tanh激活函数,生成器模型优化器使用Adam优化器。

4.如权利要求1所述的面向强化学习的异常数据检测防御方法,其特征在于,所述判别器是一个二分类判别器,用于判别下一时刻的预测驾驶状态数据和下一时刻的真实驾驶状态数据的真伪。

5.如权利要求1所述的面向强化学习的异常数据检测防御方法,其特征在于,步骤(4)中,若所述判别器的输出表示其来自于真实驾驶状态数据,则表明预测驾驶状态数据和真实驾驶状态数据相似,该真实驾驶状态数据有效。

6.如权利要求1所述的面向强化学习的异常数据检测防御方法,其特征在于,步骤(4)中,若所述判别器的输出表示其来自于生成器输出的预测驾驶状态数据,则表明预测驾驶状态数据异于真实驾驶状态数据,则认为真实驾驶状态数据脱离之前的预测驾驶状态数据分布,则将该真实驾驶状态数据作为异常数据点处理,利用预测驾驶状态数据取代真实驾驶状态数据。