1.一种基于ADP算法的车辆路径规划方法,其特征在于,包括获取货物配送中心信息、可利用车辆信息和顾客需求点信息,根据所获取的货物配送中心信息、可利用车辆信息和顾客需求点信息,计算货物配送中心与每个顾客需求点之间的相互距离,建立相应数学模型,采用ADP算法找出成本最低的配送路径,再根据成本最低的路径进行货物配送;所述货物配送中心信息为配送中心位置,所述可利用车辆信息包括以下一种或多种:车辆位置、车辆承载量、车辆固定成本和车辆最大行驶路径;所述顾客需求点信息包括以下一种或多种:顾客需求点位置、顾客需求点的货物需求量和顾客需求点的货物需求时间段;
所述数学模型为VRP模型,构建过程如下:
1)先获取以下状态变量集合:其中t表示时间阶段;
m表示可利用车辆;
i
2)获取从t到t+1阶段做出决策所需的决策变量集合,如下:其中,i
a表示顾客预定配送时间,又称时间窗;
D
3)根据t阶段的状态变量SS
其中,M表示马尔科夫决策过程MDP,是描述动态随机系统优化决策问题的基本数学模型;
S
S
x
4)MDP模型中状态及决策产生的成本函数:其中,
5)计算每一阶段的距离成本函数,如下:C
其中,E表示C
6)构建目标函数,计算所有阶段总费用之和的最小值,如下:所述MDP模型中,计算所有阶段总费用之和的最小值采用ADP算法,ADP近似值迭代算法的基本步骤如下:步骤1,初始化:读入数据,初始化所有决策后状态步骤2,开始第k次迭代:选择第1到T时段的观测样本作为ω步骤3,从第0到T时段进行循环,求解其中,
其中,
并令
步骤4,若t>0,则按照下式更新其中,α
步骤5,求t阶段决策后状态:t+1阶段的预决策状态:其中,ω
步骤6,判断是否为最末时段,若t=T继续下一步,否则令t=t+1,转步骤3;
步骤7,若满足收敛条件则转步骤9,否则继续下一步;
步骤8,判断是否到达最大迭代次数,若k