欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 202110372793X
申请人: 天津理工大学
专利类型:发明专利
专利状态:已下证
专利领域: 一般车辆
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于深度强化学习的无人驾驶端到端决策方法,其特征在于,包括构建并训练深度强化学习网络;其中,

1)构建深度强化学习网络:

深度强化学习网络包括由Eval Actor网络和Target Actor网络构成的Actor网络,由Eval Critic 1网络和Target Critic 1网络构成的Critic 1网络,由Eval Critic 2网络和Target Critic 2网络构成的Critic 2网络,以及由Eval Q网络和Target Q网络构成的Q网络组;其中,Eval Actor网络用于接收当前时刻环境状态st并输出连续空间动作act,Target Actor网络用于输出训练Eval Critic 1网络和Eval Critic 2网络的动作a’;Eval Critic 1网络和Eval Critic 2网络用于输出训练Eval Actor网络的动作值Q,Target Critic 1网络和Target Critic 2网络用于输出训练Eval Critic 1网络和Eval Critic 2网络的动作值Qj’;Eval Q网络用于接收当前时刻环境状态st并输出动作值QD并选取数值最高的离散空间动作aDt,Target Q网络用于输出训练Eval Q网络的动作值

2)训练深度强化学习网络,其具体步骤为:S1、深度强化学习网络的各网络参数初始化并与交互环境交互;Eval Actor网络接收当前时刻环境状态st并输出连续空间动作act,Eval Q网络接收当前时刻环境状态st并输出离散空间动作aDt,连续空间动作aCt和离散空间动作aDt加权融合得到执行动作at;执行动作at与下一时刻环境状态st+1输入至奖惩函数中,得到执行动作at的奖惩值rt;

S2、重复步骤S1直至深度强化学习网络训练完成,并持续将每一时刻下的历史经验信息,包括st、act、aDt、rt、st+1,作为一组样本存储到经验回放池中;

S3、当经验回放池中的获取的样本数量达到满足调取要求时,从经验回放池中调取N组样本,通过Actor损失函数J以训练Eval Actor网络:μ

其中,θ为Eval Actor网络参数;Q为向Eval Critic 1网络输入样本i的环境状态si和执行动作ai后输出的动作值; 为Critic 1网络参数;μ表示Eval Actor;

S4、在进行步骤S3的同时,从经验回放池中调取N组样本,通过第一损失函数L1以同步训练Eval Critic 1网络和Eval Critic 2网络:其中,Q为向Eval Critic 1网络或Eval Critic 2网络输入样本i的环境状态si和执行i

动作ai后输出的动作值; 为Eval Critic 1网络参数或Eval Critic 2网络参数,y为第一估计动作值, ri为执行ai的奖惩值,γC为第一折扣率,Qj'为向Target Critic 1网络或Target Critic 2网络输入下一时刻的环境状态s’和目标动作a’后输出的动作值;目标动作a’为向Target Actor网络输入下一时刻的环境状态s’后输出的动作; 为Target Crtic 1网络参数或Target Crtic 2网络参数;在该过程中,取Target Crtic 1网络和Target Crtic 2网络输出的最小动作值同步训练Eval Critic 1网络和Eval Critic 2网络;

S5、在进行步骤S3的同时,从经验回放池中调取N组样本,通过第二损失函数L2以训练Eval Q网络:

其中,QD为向Eval Q网络输入样本i的环境状态si后输出动作值;θ为Eval Q网络参数;

i

y’为第二动作估计值, ri为执行动作ai的奖惩值,γD为第二折扣率,为向Target Q网络输入下一时刻的环境状态s’后输出的最大目标动作值, 表示Target Q网络参数;在该过程中,Target Q网络通过s’选择最大动作值训练Eval Q网络;

S6、在Eval Actor完成更新后,采用下式以软更新的方式对Target Actor进行更新:μ' μ μ'

θ ←τθ+(1‑τ)θ ,

μ μ

式中,τ为软更新参数,θ'为Target Actor网络参数,θ为Actor网络参数;

在Eval Critic 1和Eval Critic 2完成更新后,对Target Critic 1和Target Critic 

2进行更新:

式中,τ为软更新参数, 为Target Critic 1网络参数或Target Critic 2网络参数,为Eval Critic 1网络参数或Eval Critic 2网络参数;

在Eval Q完成更新后,采用下式以硬更新的方式对Target Q网络进行更新:式中, 为Target Q网络参数,θ为Eval Q网络参数;

S7、重复步骤S3~步骤S6,直至Actor损失函数J、第一损失函数L1、第二损失函数L2的损失值均表现为收敛,该深度强化学习网络训练完成。

2.根据权利要求1所述的基于深度强化学习的无人驾驶端到端决策方法其特征在于,当前时刻环境状态st包括前方道路环境状态和车辆自身状态;前方道路环境状态为前方道路特征编码;车辆自身状态包括车辆行驶速度,方向盘转向角、油门踏板开合度和刹车踏板开合度。

3.根据权利要求2所述的基于深度强化学习的无人驾驶端到端决策方法,其特征在于,前方道路环境状态的获取方法为:

1)通过安装在车前的RGB摄像头实时获取前方道路图片;

2)将前方道路图片输入到预训练的网络中,获取特征信息编码,作为前方道路环境状态;其中,所述预训练网络为:通过多张前方道路图片依次输入至端到端决策图片数据集,对无人驾驶车辆进行端到端模仿学习决策训练,以提取无人驾驶车辆前方道路特征编码。

4.根据权利要求2所述的基于深度强化学习的无人驾驶端到端决策方法,其特征在于,车辆自身状态中的车辆行驶速度、方向盘转向角、油门踏板开合度和刹车踏板开合度分别通过设置在车辆变速器、方向盘、油门踏板、刹车踏板处的四个传感器获得。

5.根据权利要求1所述的基于深度强化学习的无人驾驶端到端决策方法,其特征在于,在步骤S1中,加权融合公式为:at=α×aCt+(1‑α)×aDt;其中,at为执行动作值,aDt为离散空间动作值,aCt为连续空间动作值,α为连续动作所占比重。

6.根据权利要求1所述的基于深度强化学习的无人驾驶端到端决策方法,其特征在于,

2 2

在步骤S1中,奖惩函数为:rt=v×[1‑ωt‑(|ωt|‑|ωt‑1|) ]‑12×(lol+lor)‑rc其中,v为车辆的前进速度,ωt、ωt‑1分别为当前时刻与上一时刻方向盘转角,lol、lor分别为车辆在道路两侧的侵占比,rc为发生碰撞时的惩罚。

7.根据权利要求1所述的基于深度强化学习的无人驾驶端到端决策方法,其特征在于,在深度强化学习网络的训练过程中,Eval Actor网络、Eval Critic 1网络、Eval Critic 2网络和Eval Q的训练频率为:该深度强化学习网络与交互环境每交互一次,进行一次训练;

Target Actor网络和Target Q网络的更新频率为:该深度强化学习网络与交互环境每交互两次,进行一次更新;Target Critic 1网络和Target Critic 2网络的更新频率为:该深度强化学习网络与交互环境每交互八次,进行一次更新。