知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13095918853 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13095918853

知嘟嘟经纪人

一种基于蝙蝠算法与强化学习的路径规划方法

￥23000

专利号： 2019108545199

申请人：青岛理工大学

专利类型：发明专利

专利状态：已下证

专利领域：控制；调节

更新日期：2024-01-05

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.基于蝙蝠算法与强化学习的路径规划方法，其特征在于，包括：确定路径规划的初始位置和目标位置，采用适应度函数确定两位置的函数值，根据蝙蝠算法得到蝙蝠的初始状态和最终状态；

以<α,γ>为强化学习的动作，从蝙蝠的初始状态开始，对所述动作进行强化学习训练，使每一个状态得到一个最优动作，将训练得到的状态-动作对保存到Q表中；所述<α,γ>为蝙蝠算法的响度衰减系数α和脉冲发射率增强系数γ的组合；

从Q表中选取最优的状态-动作对，代入蝙蝠算法中，得到最优的蝙蝠位置；从而规划出初始位置到目标位置的最优路径。

2.根据权利要求1所述的基于蝙蝠算法与强化学习的路径规划方法，其特征在于，所述蝙蝠的初始状态和最终状态的算法过程为：Step 1：种群初始化；

Step 2：初始化蝙蝠的位置xi，并根据适应度函数值的优劣寻找当前最优解x；

Step 3：开始主循环，生成均匀分布的随机数rand，若rand

fi＝fmin+(fmax-fmin)β, (4)其中：

β：β∈[0,1]是均匀分布的随机数。

fi：第i只蝙蝠的搜索脉冲频率，fi∈[fmin,fmax]；分别表示第t代和第t-1代第i只蝙蝠的速度。

分别表示第t代和第t-1代第i只蝙蝠的状态。

x*：当前所有蝙蝠的最优状态；

若rand≥ri，则根据公式(4)进行局部搜索，产生一个新解xnew，并对该解进行越界处理；

xnew＝xold+∈Lt, (7)其中：

∈∈[-1,1]是均匀分布的随机数；Lt是第t代所有蝙蝠响度的平均值；xold是当前最优个体；xnew是经局部搜索后产生的新个体；

Step 4：生成均匀分布的随机数rand，若rand

其中：

α称为响度衰减系数，γ称为脉冲发射率增强系数；对于任意的0<α<1和γ>0，当迭代次数t→+∞时，响度脉冲发射率是初始脉冲发射率；

Step 5：更新整个流程的最优解，判断是否到达终止条件，是则输出最优解，否则循环至Step 3。

3.根据权利要求2所述的基于蝙蝠算法与强化学习的路径规划方法，其特征在于，所述的适应度函数为：F＝F1+penalty， (2)其中：

(x,y)：当前时刻t位置

(x′,y′)：下一时刻t+1位置

(xg,yg)：目标位置

F1：路径规划中下一时刻位置(x′,y′)与当前时刻位置(x,y)和目标位置(xg,yg)的欧式距离之和最小，即实现路径最短；

penalty：路径规划中不能接触环境中的障碍物(xi,yi),i∈{1,2,…n}，其中n为障碍物的数量，否则添加一个大的惩罚项，即实现避障目标。

4.根据权利要求3所述的基于蝙蝠算法与强化学习的路径规划方法，其特征在于，所述对动作进行强化学习训练的算法过程为：在动作集中选取最优动作进行即时奖励；所述即时奖励设置为连续迭代中相邻蝙蝠适应度值之间的差值，表达式为：re(Ri(t),<α′,γ′>)＝fit(Xi(t+1))-fit(Xi(t))＝Ri(t+1)-Ri(t) (12)其中：<α′,γ′>为在<α,γ>集中选取的最优动作；re(Ri(t),<α′,γ′>)为<α′,γ′>作用于环境时得到的即时奖励；X(t)定义为蝙蝠的位置，Xi(t)为当前蝙蝠的位置，Xi(t+1)为新蝙蝠的位置，即下一蝙蝠的位置；R(t)定义为强化学习的状态，即蝙蝠在位置X(t)时的适应度函数值，Ri(t)为当前状态，Ri(t+1)为下一状态；

通过迭代公式(11)不断更新Q(Ri(t),<α′,γ′>)，得到最优状态-动作对Q表：其中：Q(st,at)：智能体在环境状态为st时采取动作at后所能获得的最优奖赏折扣之和；

re(st,at)：即时奖励；η是折扣因子；μ是学习率，控制着学习速度，在一定取值范围内，μ越大则收敛越快。