1.一种基于强化学习和启发式搜索的路径规划方法,其特征在于,包括:S1:在马尔科夫决策过程框架下建立环境模型,所述环境模型的状态空间为S,动作空间为A,奖励函数为R,转移概率函数为P;
S2:通过Dyna-Q算法对所述环境模型进行采样更新,对每个状态-动作对进行评估并确定目标点;
S3:基于所述目标点,通过A*算法分别计算当前位置与起始点和所述目标点的欧式距离,确定初始路径;
S4:对所述初始路径中每个状态-动作对进行赋值;
S5:根据每个状态-动作对的评估值以及赋值,确定最优动作;
S6:根据最优动作确定最优路径。
2.根据权利要求1所述的基于强化学习和启发式搜索的路径规划方法,其特征在于,所述步骤S1具体包括:S11:利用环境的坐标对状态S进行表征。
S12:智能体所能行走的方向表征为环境的动作空间A;行走方向包括上、下、左以及右。
S13:当智能体碰到障碍物时,获得的奖励为-100,当到达目标点时,获得的奖励为
1000,其余情况均为-1。
S14:当智能体在同一状态采取同一动作时,进入的状态是唯一的,所以转移概率函数P=1。
3.根据权利要求1所述的基于强化学习和启发式搜索的路径规划方法,其特征在于,所述步骤S2具体包括:S21:当时间t时,状态为st∈S下,根据上置信边界策略选择动作at∈A,进入下一时刻状态st+1∈S,并得到奖励rt+1;所述上置信边界策略为:其中,Q(st,at)为在状态s下动作a的评估值,c为比例因子,Nt(a)表示在状态s下动作a被访问的次数,t表示从开始到现在所经历的时间步。
S22:采样得到的经验序列
S23:采样得到的
4.根据权利要求1所述的基于强化学习和启发式搜索的路径规划方法,其特征在于,所述步骤S3具体包括:S31:利用A*算法的启发函数计算当前节点的启发值F(x,y),表示为:F(x,y)=G(x,y)+H(x,y)
G(x,y)表示起始点到当前位置的欧式距离,H(x,y)表示目标点到当前位置的欧式距离;(x,y)表示当前点坐标,(ox,oy)表示起始点坐标,(gx,gy)表示目标点坐标;
S32:将开放列表中启发值F(x,y)最小的节点X(x,y),加入到关闭列表,然后检查节点X(x,y)周围的点是否在开放列表当中,若否,则将X(x,y)周围的点加入开放列表;重复步骤S3确定初始路径。
5.根据权利要求1所述的基于强化学习和启发式搜索的路径规划方法,其特征在于,所述最优动作at′的计算公式为:其中,η和c为比例因子。
6.一种基于强化学习和启发式搜索的路径规划系统,其特征在于,包括:环境模型构建模块,用于在马尔科夫决策过程框架下建立环境模型,所述环境模型的状态空间为S,动作空间为A,奖励函数为R,转移概率函数为P;
更新模块,通过Dyna-Q算法对所述环境模型进行采样更新,对每个状态-动作对进行评估并确定目标点;
初始路径确定模块,基于所述目标点,通过A*算法分别计算当前位置与起始点和所述目标点的欧式距离,确定初始路径;
赋值模块,用于对所述初始路径中每个状态-动作对进行赋值;
最优动作确定模块,用于根据每个状态-动作对的评估值以及赋值,确定最优动作;
最优路径确定模块,用于根据最优动作确定最优路径。
7.根据权利要求6所述的基于强化学习和启发式搜索的路径规划系统,其特征在于,起始点到当前位置的欧式距离的计算公式如下:目标点到当前位置的欧式距离的计算公式如下:
(x,y)表示当前点坐标,(ox,oy)表示起始点坐标,(gx,gy)表示目标点坐标。
8.根据权利要求6所述的基于强化学习和启发式搜索的路径规划系统,其特征在于,所述最优动作at′的计算公式为:其中,η和c为比例因子。