欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2019108545199
申请人: 青岛理工大学
专利类型:发明专利
专利状态:已下证
专利领域: 控制;调节
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.基于蝙蝠算法与强化学习的路径规划方法,其特征在于,包括:确定路径规划的初始位置和目标位置,采用适应度函数确定两位置的函数值,根据蝙蝠算法得到蝙蝠的初始状态和最终状态;

以<α,γ>为强化学习的动作,从蝙蝠的初始状态开始,对所述动作进行强化学习训练,使每一个状态得到一个最优动作,将训练得到的状态‑动作对保存到Q表中;所述<α,γ>为蝙蝠算法的响度衰减系数α和脉冲发射率增强系数γ的组合;

从Q表中选取最优的状态‑动作对,代入蝙蝠算法中,得到最优的蝙蝠位置;从而规划出初始位置到目标位置的最优路径;

所述蝙蝠的初始状态和最终状态的算法过程为:Step 1:种群初始化;

*

Step 2:初始化蝙蝠的位置xi,并根据适应度函数值的优劣寻找当前最优解x;

Step 3:开始主循环,生成均匀分布的随机数rand,若rand<ri,则按照下列公式分别更新蝙蝠的频率、速度和位置;

fi=fmin+(fmax‑fmin)β,        (4)其中:

β:β∈[0,1]是均匀分布的随机数;

fi:第i只蝙蝠的搜索脉冲频率,fi∈[fmin,fmax]; 分别表示第t代和第t‑1代第i只蝙蝠的速度;

分别表示第t代和第t‑1代第i只蝙蝠的状态;

*

x:当前所有蝙蝠的最优状态;

若rand≥ri,则根据公式(4)进行局部搜索,产生一个新解xnew,并对该解进行越界处理;

t

xnew=xold+∈L,            (7)其中:

t

∈∈[‑1,1],是均匀分布的随机数;L是第t代所有蝙蝠响度的平均值;xold是当前最优个体;xnew是经局部搜索后产生的新个体;

ri表示第i只蝙蝠的脉冲发射率;

*

Step 4:生成均匀分布的随机数rand,若rand<Li且fit(xnew)<fit(x),则接受Step 3产生的新解xnew,将蝙蝠位置进行更新,同时根据公式(5)和公式(6)对脉冲响度和脉冲发射率进行调整;

其中:

α称为响度衰减系数,γ称为脉冲发射率增强系数;对于任意的0<α<1和γ>0,当迭代次数t→+∞时,响度 脉冲发射率 是初始脉冲发射率;

Step 5:更新整个流程的最优解,判断是否到达终止条件,是则输出最优解,否则循环至Step 3;

所述的适应度函数为:

F=F1+penalty,              (2)其中:

(x,y):当前时刻t位置

(x,,y′):下一时刻t+1位置

(xg,yg):目标位置

F1:路径规划中下一时刻位置(x′,y′)与当前时刻位置(x,y)和目标位置(xg,yg)的欧式距离之和最小,即实现路径最短;

penalty:路径规划中不能接触环境中的障碍物(xi,yi),i∈{1,2,…n},其中n为障碍物的数量,否则添加一个大的惩罚项,即实现避障目标;

所述对动作进行强化学习训练的算法过程为:在动作集中选取最优动作进行即时奖励;所述即时奖励设置为连续迭代中相邻蝙蝠适应度值之间的差值,表达式为:re(Ri(t),<α′,γ′>)=fit(Xi(t+1))‑fit(Xi(t))=Ri(t+1)‑Ri(t)    (12)其中:<α′,γ′>为在<α,γ>集中选取的最优动作;re(Ri(t),<α,γ>)为<α,γ>作用于环境时得到的即时奖励;X(t)定义为蝙蝠的位置,Xi(t)为当前蝙蝠的位置,Xi(t+1)为新蝙蝠的位置,即下一蝙蝠的位置;R(t)定义为强化学习的状态,即蝙蝠在位置X(t)时的适应度函数值,Ri(t)为当前状态,Ri(t+1)为下一状态;

通过迭代公式(11)不断更新Q(Ri(t),<α′,γ′>),得到最优状态‑动作对Q表:其中:Q(st,at):智能体在环境状态为st时采取动作at后所能获得的最优奖赏折扣之和;

re(st,at):即时奖励;η是折扣因子;μ是学习率,控制着学习速度,在一定取值范围内,μ越大则收敛越快。