1.一种引入人工势场的强化学习路径规划方法,其特征在于:包括以下步骤:S1、建立格栅地图,引入引力场函数初始化状态值,获得用于训练强化学习智能体的仿真环境;
S2、初始化算法参数;
S3、采用动态因子调整策略选择动作;
S4、执行动作,更新Q值;
S5、重复执行第三步、第四步,直到达到一定步数或一定收敛条件为止;
S6、每一步选择Q值最大的动作,得出最优路径;
S7、把最优路径发送给移动机器人的控制器,控制移动机器人按照最优路径行走;
步骤S1具体过程如下:对移动机器人获得的环境图像进行分割处理,将图像分割成20×20的栅格,采用栅格法建立环境模型,如果在格栅中发现障碍物,则定义该栅格为障碍物位置,机器人不能经过;如果格栅中发现目标点,则定义该格栅为目标位置,为移动机器人最终要到达的位置;其他的栅格定义为无障碍物的栅格,机器人可以经过,根据公式(1)计算每个格栅的引力值;
其中,ζ是大于0的尺度因子,用来调节引力大小;|d|为当前位置与目标点所在位置的距离;η为正常数,防止目标点处引力值出现无穷大;
步骤S2中,所述参数包括:学习率ɑ∈(0,1),折扣因子γ∈(0,1),最大迭代次数,奖励函数r,贪婪因子动态调整策略参数εmax,εmin,T,n;
利用公式(2)初始化Q值函数
, , ,
其中,P(s |s,a)为从当前状态s和动作a确定的情况下转移到下一状态s的概率,V(s),为下一状态的状态值函数,V(s)=Uatt; 为当前状态s和采取动作a所获得的奖励值,中的S为状态集,Uatt为当前位置的引力值;
步骤S3中,贪婪因子调整策略如下:
其中tanh函数的具体形式如下:
e为自然对数的底,当自变量大于0时,tanh()的取值范围为(0,1);stdn为连续n次迭代次数下的步数标准差;T为系数,与模拟退火算法中的温度值作用相反,T越大随机性越小;
εmax和εmin分别为所设置的探索率的最大值和最小值。
2.根据权利要求1所述的引入人工势场的强化学习路径规划方法,其特征在于:步骤S4中,执行第三步所选择的动作a,到达s,得到即时奖励R(s,a),利用引入人工势场的Q‑learning算法更新Q值函数,更新规则如式(5)
, ,
其中,(s,a)为当前状态‑动作对;(s ,a)为下一时刻的状态‑动作对;R(s,a)为状态s下执行动作a的即时奖励,ɑ为学习率,γ为折扣因子。
3.根据权利要求1所述的引入人工势场的强化学习路径规划方法,其特征在于:尺度因子ζ设置为0.6,常数η设置为1。
4.根据权利要求1所述的引入人工势场的强化学习路径规划方法,其特征在于:学习率ɑ=0.01,折扣因子γ=0.9,最大迭代次数设置为20000次,εmax=0.5,εmin=0.01,T=500,n=
10,奖励函数设置为:
。