欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2022110885928
申请人: 华东交通大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-11-13
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.基于超参数网络权重分配深度强化学习的车辆调度方法,其特征在于,包括以下步骤:获取多智能体的调度区域,所述调度区域包括局部区域和全局区域;其中所述智能体为被调度的车辆;

基于所述局部区域,得到多智能体的局部状态,基于所述局部状态,通过策略网络,得到当前调度策略;

得到当前调度策略的过程包括:

基于所述局部区域,得到多智能体的局部状态,其中所述局部状态包括:自身网格和六个邻居网格中的订单需求数和车辆数以及网格编号;

将所述局部状态输入至策略网络,得到当前调度策略;

基于所述全局区域,得到多智能体的全局状态,基于所述全局状态,通过价值网络,得到全局状态价值;通过评价网络,得到多智能体的状态‑联合动作价值;

得到全局状态价值的过程包括:

基于所述全局区域,得到多智能体的全局状态,其中所述全局状态包括:所有网络中的订单需求数、车辆数以及网格编号;

基于所述全局状态,通过价值网络,得到全局状态价值;

得到多智能体的状态‑联合动作价值的过程包括:基于所述全局状态,通过评价网络,将所述当前调度策略和超参数进行组合计算,得到多智能体的状态‑联合动作价值;

基于所述全局状态价值与所述状态‑联合动作价值,得到新的目标函数;基于所述目标函数,优化所述调度策略,最终实现车辆调度;

得到新的目标函数的过程包括:

获取损失函数的权重常数,基于所述权重常数,将所述全局状态价值与所述状态‑联合动作价值进行组合,得到总的目标损失函数,所述总的目标损失函数为新的目标函数;

优化所述调度策略的过程包括:

基于反向传播算法,对所述调度策略进行权重分配;基于分配结果和所述目标函数,优化所述当前调度策略,直至输出的误差减小至期望值,优化过程结束。

2.根据权利要求1所述的基于超参数网络权重分配深度强化学习的车辆调度方法,其特征在于,获取多智能体的调度区域的过程包括:划分地图得到智能体的六边形网格区域,其中所述六边形网格区域为调度区域;

基于所述六边形网格区域的中心坐标,得到邻居区域。

3.根据权利要求1所述的基于超参数网络权重分配深度强化学习的车辆调度方法,其特征在于,将所述局部状态输入至策略网络的过程包括:获取策略网络,将所述的局部状态输入至所述策略网络,得到观察状态与动作参数的映射关系,基于所述映射关系,得到当前调度策略。