1.一种混合车队中基于强化学习控制策略的车辆控制方法,其特征在于:其包括以下步骤:
步骤1,对于道路上的有人驾驶车辆与无人驾驶车辆混合编队,建立基于车辆自身期望轨迹位置的固定参考系,以及建立基于道路上不确定因素的惯性参考系;
步骤2,分别将有人驾驶车辆和无人驾驶车辆的跟驰误差状态空间模型相结合,并根据任意车辆序列,得到惯性参考系中混合车辆纵向队列的模型;
步骤3,根据线性系统的二次性能指标,构造拉格朗日二次型队列跟驰代价函数,并由此得到Q值函数的表达式;
步骤4,对于由周围车辆对自身车辆影响所获得的信息,首先运用深度Q学习网络进行训练,在数据集中进行采样,探索得到某个状态信息xt,接收新状态的奖励函数,并把当前状态信息xt、当前控制输入ut、奖励函数rt、新的状态信息xt+1存储到驱动数据库,当所用时间满足价值网络更新周期时,就执行步骤5,否则继续进行训练;
*
步骤5,运用DDPG算法进行参数的训练,为了获得跟驰评价指标下的代价函数V (x(t))*
和跟驰控制u (x),用Actor神经网络来估计无人驾驶车辆的跟驰控制输入,用Critic神经网络估计跟驰代价函数,根据损失函数更新Critic网络,根据Actor的梯度反向更新Actor网络,采用策略梯度更新target网络的权重参数;
步骤6,使用深度神经网络去近似Q值函数和策略梯度网络,若Q值函数和控制输入两个过程同时实现收敛,就完成了对当下最优控制策略的求解,继续执行步骤7,否则返回到步骤4;
步骤7,将步骤6获得的最优控制策略输入到步骤2的惯性参考系中混合车辆纵向队列的模型中,混合车队更新自身状态,然后再执行步骤4‑7,循环往复,最终完成混合车队中车辆的控制任务;
所述步骤2中惯性参考系中混合车辆纵向队列的模型为:
2n×2n
其中,A、B、W为与有人和无人驾驶车辆相关的系数矩阵,A∈R 是有关车辆跟驰动态
2n×p 2n×1
的系统矩阵,B∈R 是关于无人驾驶车辆跟驰控制的输入矩阵,W∈R ,x为各个车辆的p×1
状态信息,u∈R 为混合车队的控制输入,Δv为队列中某辆车速与前后面各个车速的差值,p为纵向队列中无人驾驶车辆的数量,n为编队中的车辆数;
对公式(7)中变量进行展开,具体写为:式中,HDVs代表有人驾驶车辆,CAVs代表无人驾驶车辆,αj为第j辆车中驾驶员对跟驰过程中由前车距离引起的距离反应增益,βj为第j辆车中驾驶员根据当前的车速引起的速度反应增益, 为跟驰距离速度优化函数f(h)的导数,为每辆车的期望跟驰距离;xj是第j辆车的状态信息,车辆的状态信息是由跟驰距离误差和速度误差确定的,因此xj=[Δhj T
Δvj] ,j=2,3,…,n+1,Δhj、Δvj为第j辆车在纵向队列中的跟驰距离误差和速度误差;
ECC为除去矩阵中所有元素为0的列,ECR为除去矩阵中所有元素为0的行,τj为第j辆车的跟驰距离参数并只针对无人驾驶车辆;Ij为相应j阶的单位矩阵,uj表示第j辆车自动驾驶的加速度;
所述步骤3中拉格朗日二次型队列跟驰代价函数和Q值函数的表达式分别具体为:拉格朗日二次型队列跟驰代价函数V(x(t))
2n×2n
式中,M∈R 为与纵向编队里前方车辆跟驰距离和行驶速度有关的2n*2n的正定矩p×1
阵,N∈R 是关于无人驾驶车辆信息控制的p*1的正定矩阵,x(t)为混合车队在t时刻的状T T
态信息,u(t)为混合车队在t时刻的控制输入,x (t)、u(t)分别是对x(t)、u(t)求转置得出的;
Q值函数的表达式为:
式中,xt、ut分别为在时间步长t内车辆的状态信息和控制输入;r(x(τ),u(τ))为τ时瞬时奖励函数;
所述步骤5具体为:
用Actor神经网络来估计无人驾驶车辆的跟驰控制输入,用Critic神经网络估计跟驰代价函数,表达式为:
式中, 分别为Actor神经网络和Critic神经网络的激励函数, 和分别为 的转置,θu、θv分别为估计的Actor神经网络权值和Critic神经网络权值,V(x)为代价函数,u(x)为跟驰控制;
随机初始化Actor网络 Critic网络Q(xt,ut|θv),然后运用这两个网络初始化对应的target网络和相应动作的探索度Nt,根据策略网络 的输出以及探索度Nt选择动作ut,并执行动作ut,得到瞬时奖励rt+1和新的状态信息xt+1,并将当前状态信息xt、当前控制输入ut、奖励函数rt、新的状态信息xt+1作为数字序列进行存储,再随机批量读取序列进行学习,计算采样过程中的贝尔曼绝对误差,基于此选择使误差取得最大值时的时间值:其中,m为总的训练次数,即有m个critic网络,记为在结果中选取当Bi取得最大值时的i值,记为b,在计算价值网络时把此项舍去,采用确定性的策略梯度来更新权重,将最终学习的策略作为所有参与者的平均值,计算价值网络:式中,γ∈(0,1]为折扣因子,m为总的训练次数,rt+1为t+1时瞬时奖励函数;
根据损失函数更新Critic网络,根据Actor的梯度反向更新Actor网络;损失函数的表达式为:
Actor的梯度表达式采用现有公式,为:式中,表示梯度; 表示在权重θu下Actor的梯度, 表示在控制输入ut条件下 的梯度;
然后采用确定性的策略梯度来更新target网络的权重参数:θv′←τθv+(1‑τ)θv′ (19)θu′←τθu+(1‑τ)θu′ (20)式中,θu′、θv′分别为更新后的Actor神经网络权值和Critic神经网络权值,τ为常数;
所述步骤6具体为:
使用深度神经网络去近似Q值函数和策略梯度网络,当Q值函数模型和控制输入两个过程同时实现收敛,即当||θ′v‑θv||<ε,||θ′u‑θu||<ε,其中ε为一个阈值常数,此时获得最优评价指标下的跟驰代价函数:
获得最优跟驰代价函数下的跟驰控制输入:其中, 和 分别为 的转置,θu′、θv′分别为更新后的Actor神经网络权值和Critic神经网络权值。