1.基于超参数网络权重分配深度强化学习的车辆调度方法,其特征在于,包括以下步骤:获取多智能体的调度区域,所述调度区域包括局部区域和全局区域;其中所述智能体为被调度的车辆;
基于所述局部区域,得到多智能体的局部状态,基于所述局部状态,通过策略网络,得到当前调度策略;
得到当前调度策略的过程包括:
基于所述局部区域,得到多智能体的局部状态,其中所述局部状态包括:自身网格和六个邻居网格中的订单需求数和车辆数以及网格编号;
将所述局部状态输入至策略网络,得到当前调度策略;
基于所述全局区域,得到多智能体的全局状态,基于所述全局状态,通过价值网络,得到全局状态价值;通过评价网络,得到多智能体的状态‑联合动作价值;
得到全局状态价值的过程包括:
基于所述全局区域,得到多智能体的全局状态,其中所述全局状态包括:所有网络中的订单需求数、车辆数以及网格编号;
基于所述全局状态,通过价值网络,得到全局状态价值;
得到多智能体的状态‑联合动作价值的过程包括:基于所述全局状态,通过评价网络,将所述当前调度策略和超参数进行组合计算,得到多智能体的状态‑联合动作价值;
基于所述全局状态价值与所述状态‑联合动作价值,得到新的目标函数;基于所述目标函数,优化所述调度策略,最终实现车辆调度;
得到新的目标函数的过程包括:
获取损失函数的权重常数,基于所述权重常数,将所述全局状态价值与所述状态‑联合动作价值进行组合,得到总的目标损失函数,所述总的目标损失函数为新的目标函数;
优化所述调度策略的过程包括:
基于反向传播算法,对所述调度策略进行权重分配;基于分配结果和所述目标函数,优化所述当前调度策略,直至输出的误差减小至期望值,优化过程结束。
2.根据权利要求1所述的基于超参数网络权重分配深度强化学习的车辆调度方法,其特征在于,获取多智能体的调度区域的过程包括:划分地图得到智能体的六边形网格区域,其中所述六边形网格区域为调度区域;
基于所述六边形网格区域的中心坐标,得到邻居区域。
3.根据权利要求1所述的基于超参数网络权重分配深度强化学习的车辆调度方法,其特征在于,将所述局部状态输入至策略网络的过程包括:获取策略网络,将所述的局部状态输入至所述策略网络,得到观察状态与动作参数的映射关系,基于所述映射关系,得到当前调度策略。