1.基于蝙蝠算法与强化学习的路径规划方法,其特征在于,包括:确定路径规划的初始位置和目标位置,采用适应度函数确定两位置的函数值,根据蝙蝠算法得到蝙蝠的初始状态和最终状态;
以<α,γ>为强化学习的动作,从蝙蝠的初始状态开始,对所述动作进行强化学习训练,使每一个状态得到一个最优动作,将训练得到的状态-动作对保存到Q表中;所述<α,γ>为蝙蝠算法的响度衰减系数α和脉冲发射率增强系数γ的组合;
从Q表中选取最优的状态-动作对,代入蝙蝠算法中,得到最优的蝙蝠位置;从而规划出初始位置到目标位置的最优路径。
2.根据权利要求1所述的基于蝙蝠算法与强化学习的路径规划方法,其特征在于,所述蝙蝠的初始状态和最终状态的算法过程为:Step 1:种群初始化;
*
Step 2:初始化蝙蝠的位置xi,并根据适应度函数值的优劣寻找当前最优解x;
Step 3:开始主循环,生成均匀分布的随机数rand,若rand
fi=fmin+(fmax-fmin)β, (4)其中:
β:β∈[0,1]是均匀分布的随机数。
fi:第i只蝙蝠的搜索脉冲频率,fi∈[fmin,fmax]; 分别表示第t代和第t-1代第i只蝙蝠的速度。
分别表示第t代和第t-1代第i只蝙蝠的状态。
x*:当前所有蝙蝠的最优状态;
若rand≥ri,则根据公式(4)进行局部搜索,产生一个新解xnew,并对该解进行越界处理;
xnew=xold+∈Lt, (7)其中:
∈∈[-1,1]是均匀分布的随机数;Lt是第t代所有蝙蝠响度的平均值;xold是当前最优个体;xnew是经局部搜索后产生的新个体;
Step 4:生成均匀分布的随机数rand,若rand
其中:
α称为响度衰减系数,γ称为脉冲发射率增强系数;对于任意的0<α<1和γ>0,当迭代次数t→+∞时,响度 脉冲发射率 是初始脉冲发射率;
Step 5:更新整个流程的最优解,判断是否到达终止条件,是则输出最优解,否则循环至Step 3。
3.根据权利要求2所述的基于蝙蝠算法与强化学习的路径规划方法,其特征在于,所述的适应度函数为:F=F1+penalty, (2)其中:
(x,y):当前时刻t位置
(x′,y′):下一时刻t+1位置
(xg,yg):目标位置
F1:路径规划中下一时刻位置(x′,y′)与当前时刻位置(x,y)和目标位置(xg,yg)的欧式距离之和最小,即实现路径最短;
penalty:路径规划中不能接触环境中的障碍物(xi,yi),i∈{1,2,…n},其中n为障碍物的数量,否则添加一个大的惩罚项,即实现避障目标。
4.根据权利要求3所述的基于蝙蝠算法与强化学习的路径规划方法,其特征在于,所述对动作进行强化学习训练的算法过程为:在动作集中选取最优动作进行即时奖励;所述即时奖励设置为连续迭代中相邻蝙蝠适应度值之间的差值,表达式为:re(Ri(t),<α′,γ′>)=fit(Xi(t+1))-fit(Xi(t))=Ri(t+1)-Ri(t) (12)其中:<α′,γ′>为在<α,γ>集中选取的最优动作;re(Ri(t),<α′,γ′>)为<α′,γ′>作用于环境时得到的即时奖励;X(t)定义为蝙蝠的位置,Xi(t)为当前蝙蝠的位置,Xi(t+1)为新蝙蝠的位置,即下一蝙蝠的位置;R(t)定义为强化学习的状态,即蝙蝠在位置X(t)时的适应度函数值,Ri(t)为当前状态,Ri(t+1)为下一状态;
通过迭代公式(11)不断更新Q(Ri(t),<α′,γ′>),得到最优状态-动作对Q表:其中:Q(st,at):智能体在环境状态为st时采取动作at后所能获得的最优奖赏折扣之和;
re(st,at):即时奖励;η是折扣因子;μ是学习率,控制着学习速度,在一定取值范围内,μ越大则收敛越快。