欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020108000700
申请人: 燕山大学
专利类型:发明专利
专利状态:已下证
专利领域: 测量;测试
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于强化学习和启发式搜索的路径规划方法,其特征在于,包括:S1:在马尔科夫决策过程框架下建立环境模型,所述环境模型的状态空间为S,动作空间为A,奖励函数为R,转移概率函数为P;

S2:通过Dyna-Q算法对所述环境模型进行采样更新,对每个状态-动作对进行评估并确定目标点;

S3:基于所述目标点,通过A*算法分别计算当前位置与起始点和所述目标点的欧式距离,确定初始路径;

S4:对所述初始路径中每个状态-动作对进行赋值;

S5:根据每个状态-动作对的评估值以及赋值,确定最优动作;

S6:根据最优动作确定最优路径。

2.根据权利要求1所述的基于强化学习和启发式搜索的路径规划方法,其特征在于,所述步骤S1具体包括:S11:利用环境的坐标对状态S进行表征。

S12:智能体所能行走的方向表征为环境的动作空间A;行走方向包括上、下、左以及右。

S13:当智能体碰到障碍物时,获得的奖励为-100,当到达目标点时,获得的奖励为

1000,其余情况均为-1。

S14:当智能体在同一状态采取同一动作时,进入的状态是唯一的,所以转移概率函数P=1。

3.根据权利要求1所述的基于强化学习和启发式搜索的路径规划方法,其特征在于,所述步骤S2具体包括:S21:当时间t时,状态为st∈S下,根据上置信边界策略选择动作at∈A,进入下一时刻状态st+1∈S,并得到奖励rt+1;所述上置信边界策略为:其中,Q(st,at)为在状态s下动作a的评估值,c为比例因子,Nt(a)表示在状态s下动作a被访问的次数,t表示从开始到现在所经历的时间步。

S22:采样得到的经验序列,通过状态-动作对函数进行更新,公式为:其中,α∈(0,1)表示学习率,γ∈(0,1)表示折损因子;

S23:采样得到的存储到模型M(S,A)中,同时随机对模型M(S,A)中的元素进行抽取并利用状态-动作对进行训练。

4.根据权利要求1所述的基于强化学习和启发式搜索的路径规划方法,其特征在于,所述步骤S3具体包括:S31:利用A*算法的启发函数计算当前节点的启发值F(x,y),表示为:F(x,y)=G(x,y)+H(x,y)

G(x,y)表示起始点到当前位置的欧式距离,H(x,y)表示目标点到当前位置的欧式距离;(x,y)表示当前点坐标,(ox,oy)表示起始点坐标,(gx,gy)表示目标点坐标;

S32:将开放列表中启发值F(x,y)最小的节点X(x,y),加入到关闭列表,然后检查节点X(x,y)周围的点是否在开放列表当中,若否,则将X(x,y)周围的点加入开放列表;重复步骤S3确定初始路径。

5.根据权利要求1所述的基于强化学习和启发式搜索的路径规划方法,其特征在于,所述最优动作at′的计算公式为:其中,η和c为比例因子。

6.一种基于强化学习和启发式搜索的路径规划系统,其特征在于,包括:环境模型构建模块,用于在马尔科夫决策过程框架下建立环境模型,所述环境模型的状态空间为S,动作空间为A,奖励函数为R,转移概率函数为P;

更新模块,通过Dyna-Q算法对所述环境模型进行采样更新,对每个状态-动作对进行评估并确定目标点;

初始路径确定模块,基于所述目标点,通过A*算法分别计算当前位置与起始点和所述目标点的欧式距离,确定初始路径;

赋值模块,用于对所述初始路径中每个状态-动作对进行赋值;

最优动作确定模块,用于根据每个状态-动作对的评估值以及赋值,确定最优动作;

最优路径确定模块,用于根据最优动作确定最优路径。

7.根据权利要求6所述的基于强化学习和启发式搜索的路径规划系统,其特征在于,起始点到当前位置的欧式距离的计算公式如下:目标点到当前位置的欧式距离的计算公式如下:

(x,y)表示当前点坐标,(ox,oy)表示起始点坐标,(gx,gy)表示目标点坐标。

8.根据权利要求6所述的基于强化学习和启发式搜索的路径规划系统,其特征在于,所述最优动作at′的计算公式为:其中,η和c为比例因子。