欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2019108545199
申请人: 青岛理工大学
专利类型:发明专利
专利状态:已下证
专利领域: 控制;调节
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.基于蝙蝠算法与强化学习的路径规划方法,其特征在于,包括:确定路径规划的初始位置和目标位置,采用适应度函数确定两位置的函数值,根据蝙蝠算法得到蝙蝠的初始状态和最终状态;

以<α,γ>为强化学习的动作,从蝙蝠的初始状态开始,对所述动作进行强化学习训练,使每一个状态得到一个最优动作,将训练得到的状态-动作对保存到Q表中;所述<α,γ>为蝙蝠算法的响度衰减系数α和脉冲发射率增强系数γ的组合;

从Q表中选取最优的状态-动作对,代入蝙蝠算法中,得到最优的蝙蝠位置;从而规划出初始位置到目标位置的最优路径。

2.根据权利要求1所述的基于蝙蝠算法与强化学习的路径规划方法,其特征在于,所述蝙蝠的初始状态和最终状态的算法过程为:Step 1:种群初始化;

*

Step 2:初始化蝙蝠的位置xi,并根据适应度函数值的优劣寻找当前最优解x;

Step 3:开始主循环,生成均匀分布的随机数rand,若rand

fi=fmin+(fmax-fmin)β,                (4)其中:

β:β∈[0,1]是均匀分布的随机数。

fi:第i只蝙蝠的搜索脉冲频率,fi∈[fmin,fmax]; 分别表示第t代和第t-1代第i只蝙蝠的速度。

分别表示第t代和第t-1代第i只蝙蝠的状态。

x*:当前所有蝙蝠的最优状态;

若rand≥ri,则根据公式(4)进行局部搜索,产生一个新解xnew,并对该解进行越界处理;

xnew=xold+∈Lt,                         (7)其中:

∈∈[-1,1]是均匀分布的随机数;Lt是第t代所有蝙蝠响度的平均值;xold是当前最优个体;xnew是经局部搜索后产生的新个体;

Step 4:生成均匀分布的随机数rand,若rand

其中:

α称为响度衰减系数,γ称为脉冲发射率增强系数;对于任意的0<α<1和γ>0,当迭代次数t→+∞时,响度 脉冲发射率 是初始脉冲发射率;

Step 5:更新整个流程的最优解,判断是否到达终止条件,是则输出最优解,否则循环至Step 3。

3.根据权利要求2所述的基于蝙蝠算法与强化学习的路径规划方法,其特征在于,所述的适应度函数为:F=F1+penalty,                     (2)其中:

(x,y):当前时刻t位置

(x′,y′):下一时刻t+1位置

(xg,yg):目标位置

F1:路径规划中下一时刻位置(x′,y′)与当前时刻位置(x,y)和目标位置(xg,yg)的欧式距离之和最小,即实现路径最短;

penalty:路径规划中不能接触环境中的障碍物(xi,yi),i∈{1,2,…n},其中n为障碍物的数量,否则添加一个大的惩罚项,即实现避障目标。

4.根据权利要求3所述的基于蝙蝠算法与强化学习的路径规划方法,其特征在于,所述对动作进行强化学习训练的算法过程为:在动作集中选取最优动作进行即时奖励;所述即时奖励设置为连续迭代中相邻蝙蝠适应度值之间的差值,表达式为:re(Ri(t),<α′,γ′>)=fit(Xi(t+1))-fit(Xi(t))=Ri(t+1)-Ri(t)     (12)其中:<α′,γ′>为在<α,γ>集中选取的最优动作;re(Ri(t),<α′,γ′>)为<α′,γ′>作用于环境时得到的即时奖励;X(t)定义为蝙蝠的位置,Xi(t)为当前蝙蝠的位置,Xi(t+1)为新蝙蝠的位置,即下一蝙蝠的位置;R(t)定义为强化学习的状态,即蝙蝠在位置X(t)时的适应度函数值,Ri(t)为当前状态,Ri(t+1)为下一状态;

通过迭代公式(11)不断更新Q(Ri(t),<α′,γ′>),得到最优状态-动作对Q表:其中:Q(st,at):智能体在环境状态为st时采取动作at后所能获得的最优奖赏折扣之和;

re(st,at):即时奖励;η是折扣因子;μ是学习率,控制着学习速度,在一定取值范围内,μ越大则收敛越快。