知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13095918853 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13095918853

知嘟嘟经纪人

一种基于强化学习和启发式搜索的路径规划方法及系统

￥37100

专利号： 2020108000700

申请人：燕山大学

专利类型：发明专利

专利状态：已下证

专利领域：测量；测试

更新日期：2024-01-05

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种基于强化学习和启发式搜索的路径规划方法，其特征在于，包括：S1：在马尔科夫决策过程框架下建立环境模型，所述环境模型的状态空间为S，动作空间为A，奖励函数为R，转移概率函数为P；

S2：通过Dyna-Q算法对所述环境模型进行采样更新，对每个状态-动作对进行评估并确定目标点；

S3：基于所述目标点，通过A*算法分别计算当前位置与起始点和所述目标点的欧式距离，确定初始路径；

S4：对所述初始路径中每个状态-动作对进行赋值；

S5：根据每个状态-动作对的评估值以及赋值，确定最优动作；

S6：根据最优动作确定最优路径。

2.根据权利要求1所述的基于强化学习和启发式搜索的路径规划方法，其特征在于，所述步骤S1具体包括：S11：利用环境的坐标对状态S进行表征。

S12：智能体所能行走的方向表征为环境的动作空间A；行走方向包括上、下、左以及右。

S13：当智能体碰到障碍物时，获得的奖励为-100，当到达目标点时，获得的奖励为

1000，其余情况均为-1。

S14：当智能体在同一状态采取同一动作时，进入的状态是唯一的，所以转移概率函数P＝1。

3.根据权利要求1所述的基于强化学习和启发式搜索的路径规划方法，其特征在于，所述步骤S2具体包括：S21：当时间t时，状态为st∈S下，根据上置信边界策略选择动作at∈A，进入下一时刻状态st+1∈S，并得到奖励rt+1；所述上置信边界策略为：其中，Q(st,at)为在状态s下动作a的评估值，c为比例因子，Nt(a)表示在状态s下动作a被访问的次数，t表示从开始到现在所经历的时间步。

S22：采样得到的经验序列，通过状态-动作对函数进行更新，公式为：其中，α∈(0，1)表示学习率，γ∈(0，1)表示折损因子；

S23：采样得到的存储到模型M(S,A)中，同时随机对模型M(S,A)中的元素进行抽取并利用状态-动作对进行训练。

4.根据权利要求1所述的基于强化学习和启发式搜索的路径规划方法，其特征在于，所述步骤S3具体包括：S31：利用A*算法的启发函数计算当前节点的启发值F(x,y)，表示为：F(x,y)＝G(x,y)+H(x,y)

G(x,y)表示起始点到当前位置的欧式距离，H(x,y)表示目标点到当前位置的欧式距离；(x，y)表示当前点坐标，(ox，oy)表示起始点坐标，(gx，gy)表示目标点坐标；

S32：将开放列表中启发值F(x,y)最小的节点X(x,y)，加入到关闭列表，然后检查节点X(x,y)周围的点是否在开放列表当中，若否，则将X(x,y)周围的点加入开放列表；重复步骤S3确定初始路径。

5.根据权利要求1所述的基于强化学习和启发式搜索的路径规划方法，其特征在于，所述最优动作at′的计算公式为：其中，η和c为比例因子。

6.一种基于强化学习和启发式搜索的路径规划系统，其特征在于，包括：环境模型构建模块，用于在马尔科夫决策过程框架下建立环境模型，所述环境模型的状态空间为S，动作空间为A，奖励函数为R，转移概率函数为P；

更新模块，通过Dyna-Q算法对所述环境模型进行采样更新，对每个状态-动作对进行评估并确定目标点；

初始路径确定模块，基于所述目标点，通过A*算法分别计算当前位置与起始点和所述目标点的欧式距离，确定初始路径；

赋值模块，用于对所述初始路径中每个状态-动作对进行赋值；

最优动作确定模块，用于根据每个状态-动作对的评估值以及赋值，确定最优动作；

最优路径确定模块，用于根据最优动作确定最优路径。