知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13336804447 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13336804447

知嘟嘟经纪人

一种基于参考深度强化学习的列车协同运行控制方法

￥38400

专利号： 202210465054X

申请人：西南交通大学

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2024-01-05

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种基于参考深度强化学习的列车协同运行控制方法，其特征在于，包括以下步骤：步骤1：在列车仿真运行环境中，根据车辆信息、道路信息、前车计划运行速度曲线，以及无线网通讯模型建立列车协同运行仿真环境，设定列车安全距离为d_safet；

步骤2：考虑通讯延迟，根据上一时刻前车位置s前t‑1，当前时刻后车位置s后t，前车最大制动加速度a_brkt‑1＝f(v前t‑1，s前t‑1)，计算得到两车估计的最短实时距离dt：式中，τ为被积分对象，△t为两次通讯之间的时间间隔；

步骤3：设定奖励函数f_rt：

S31：在列车运行过程中，以两列车实时间距dt与列车协同目标距离d_safet误差为距离奖励f_drt；

S32：考虑乘客舒适度，基于后车加速度变化，建立舒适度奖励函数f_crt；

S33：基于上述描述，f_rt＝f_drt+f_crt；

步骤4：建立输入降维的强化学习算法控制器；强化学习算法中用于决策以及决策优化的智能体，由动作价值评价网络Q＝f(st,at)，以及策略网络at＝g(st)两部分构成；其中st为由列车速度、位置、加速度信息构成的向量，at为输出的动作；

因此，通过对动作选择网络的输入状态进行降维，减少策略网络输入的状态数量，构建动作价值评价网络和输入状态更少的动作选择网络，组成新的输入降维的强化学习智能体，用公式表示为：步骤5：增加参考控制器，当列车满足参考控制策略条件时，使用参考控制信号取代强化学习控制信号，并将这部分数据用于优化强化学习控制策略；

S51：考虑列车距离大于安全协同运行目标距离时，当两车的实时车距dt大于d_safet+

500m，且后车速度v后t小于前车速度v前t‑1时，参考控制器输出为后车的最大加速度；

S52：考虑列车距离小于安全协同运行目标距离时，当两车实时车距dt小于d_safet时，参考控制器输出最大制动；

S53：考虑当列车速度vt大于等于道路限速时，参考控制器输出为0或最大制动，让后车速度保持在道路限速的合理范围内；

步骤6：训练网络，直至网络全局奖励达到一个最优，且控制结果复合预期，认为网络的初步训练完成；

步骤7：在实车上加载参考控制策略以及强化学习控制策略，根据真实的列车信息，输出列车控制信号，完成列车协同运行控制。

2.根据权利要求1所述的一种基于参考深度强化学习的列车协同运行控制方法，其特征在于，所述步骤1中，基于国家标准十足350km/h的高速列车紧急制动距离不超过6500m，设定列车安全距离为d_safet＝7000m。

3.根据权利要求1所述的一种基于参考深度强化学习的列车协同运行控制方法，其特征在于，还包括步骤8：将列车的实时运行数据保存上传，对仿真环境中的参考强化学习控制策略进行进一步的优化，使之更加适应于真实列车运行环境。