知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13095918853 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13095918853

知嘟嘟经纪人

一种面向强化学习的数据异常检测防御方法

￥37100

专利号： 2020100718775

申请人：浙江工业大学

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2023-12-11

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种面向强化学习的异常数据检测防御方法，其特征在于，包括以下步骤：

(1)搭建小车自动驾驶环境，并基于根据小车自动驾驶环境提供的状态数据，采用深度确定性策略梯度算法进行强化学习，生成驾驶状态数据作为训练样本；

(2)利用所述训练样本训练由生成器和判别器组成的生成式对抗网络；

所述判别器是一个二分类判别器，采用交叉熵来表示，用于判别下一时刻的预测驾驶状态数据和下一时刻的真实驾驶状态数据的真伪；

训练时，从训练数据集中采集T个时刻正常的小车驾驶状态作为样本数据，交叉熵表示为：其中minmax表示纳什均衡中的最大最小目标函数，pdata(xs)表示来自样本数据的分布，第一项中的logD(x)表示判别器对真实数据的判断，第二项log(1‑D(x))表示对生成数据的判断通过这样一个最大最小博弈过程，循环交替优化生成器G和判别器D来训练所需要的生成式网络和判别式网络，直至达到纳什均衡点；

(3)采集驾驶状态数据，利用训练好的生成器生成根据当前时刻驾驶状态数据得到的下一时刻的预测驾驶状态数据；

(4)利用训练好的判别器判别下一时刻的真实驾驶状态数据和预测驾驶状态数据是否正常，当下一刻的真实驾驶状态数据异常，预测驾驶状态数据正常，利用预测驾驶状态数据替换真实驾驶状态数据，包括：若所述判别器的输出表示其来自于真实驾驶状态数据，则表明预测驾驶状态数据和真实驾驶状态数据相似，该真实驾驶状态数据有效；

若所述判别器的输出表示其来自于生成器输出的预测驾驶状态数据，则表明预测驾驶状态数据异于真实驾驶状态数据，则认为真实驾驶状态数据脱离之前的预测驾驶状态数据分布，则将该真实驾驶状态数据作为异常数据点处理，利用预测驾驶状态数据取代真实驾驶状态数据。

2.如权利要求1所述的面向强化学习的异常数据检测防御方法，其特征在于，所述采用深度确定性策略梯度算法进行强化学习生成驾驶状态数据包括：利用主网络的主策略网络基于当前时刻的驾驶状态数据st产生动作at，并利用主网络的主价值Q网络计算动作at的奖励值rt，并将当前时刻的驾驶状态数据st、动作at、奖励值rt以及下一时刻的驾驶状态数据st+1存储到缓冲区内；

利用目标网络的目标价值Q网络根据缓冲区的奖励值rt和驾驶状态数据st+1计算累积奖励值r，根据奖励值和累积奖励值计算损失函数，利用损失函数更新主价值Q网络的参数；

根据参数更新后的主价值Q网络计算的动作at的更新价值和主策略网络产生的动作变化值计算累计奖励函数的梯度，利用该梯度来更新主策略网络的参数；

根据主策略网络参数和主价值Q网络参数采用软更新方式更新目标策略网络参数和目标价值Q网络参数。

3.如权利要求1所述的面向强化学习的异常数据检测防御方法，其特征在于，所述生成器用于根据当前时刻的驾驶状态数据生成下一时刻的预测驾驶状态数据，所述生成器包括：生成器网络模型使用3层卷积神经网络结构作为隐层，隐层中使用批标准化，使用ReLU作为激活函数，最后一层使用tanh激活函数，生成器模型优化器使用Adam优化器。