1.一种基于参考深度强化学习的列车协同运行控制方法,其特征在于,包括以下步骤:步骤1:在列车仿真运行环境中,根据车辆信息、道路信息、前车计划运行速度曲线,以及无线网通讯模型建立列车协同运行仿真环境,设定列车安全距离为d_safet;
步骤2:考虑通讯延迟,根据上一时刻前车位置s前t‑1,当前时刻后车位置s后t,前车最大制动加速度a_brkt‑1=f(v前t‑1,s前t‑1),计算得到两车估计的最短实时距离dt:式中,τ为被积分对象,△t为两次通讯之间的时间间隔;
步骤3:设定奖励函数f_rt:
S31:在列车运行过程中,以两列车实时间距dt与列车协同目标距离d_safet误差为距离奖励f_drt;
S32:考虑乘客舒适度,基于后车加速度变化,建立舒适度奖励函数f_crt;
S33:基于上述描述,f_rt=f_drt+f_crt;
步骤4:建立输入降维的强化学习算法控制器;强化学习算法中用于决策以及决策优化的智能体,由动作价值评价网络Q=f(st,at),以及策略网络at=g(st)两部分构成;其中st为由列车速度、位置、加速度信息构成的向量,at为输出的动作;
因此,通过对动作选择网络的输入状态进行降维,减少策略网络输入的状态数量,构建动作价值评价网络和输入状态更少的动作选择网络,组成新的输入降维的强化学习智能体,用公式表示为:步骤5:增加参考控制器,当列车满足参考控制策略条件时,使用参考控制信号取代强化学习控制信号,并将这部分数据用于优化强化学习控制策略;
S51:考虑列车距离大于安全协同运行目标距离时,当两车的实时车距dt大于d_safet+
500m,且后车速度v后t小于前车速度v前t‑1时,参考控制器输出为后车的最大加速度;
S52:考虑列车距离小于安全协同运行目标距离时,当两车实时车距dt小于d_safet时,参考控制器输出最大制动;
S53:考虑当列车速度vt大于等于道路限速时,参考控制器输出为0或最大制动,让后车速度保持在道路限速的合理范围内;
步骤6:训练网络,直至网络全局奖励达到一个最优,且控制结果复合预期,认为网络的初步训练完成;
步骤7:在实车上加载参考控制策略以及强化学习控制策略,根据真实的列车信息,输出列车控制信号,完成列车协同运行控制。
2.根据权利要求1所述的一种基于参考深度强化学习的列车协同运行控制方法,其特征在于,所述步骤1中,基于国家标准十足350km/h的高速列车紧急制动距离不超过6500m,设定列车安全距离为d_safet=7000m。
3.根据权利要求1所述的一种基于参考深度强化学习的列车协同运行控制方法,其特征在于,还包括步骤8:将列车的实时运行数据保存上传,对仿真环境中的参考强化学习控制策略进行进一步的优化,使之更加适应于真实列车运行环境。