欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020113271986
申请人: 湖北汽车工业学院
专利类型:发明专利
专利状态:已下证
专利领域: 测量;测试
更新日期:2024-02-23
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种引入人工势场的强化学习路径规划方法,其特征在于:包括以下步骤:S1、建立格栅地图,引入引力场函数初始化状态值,获得用于训练强化学习智能体的仿真环境;

S2、初始化算法参数;

S3、采用动态因子调整策略选择动作;

S4、执行动作,更新Q值;

S5、重复执行第三步、第四步,直到达到一定步数或一定收敛条件为止;

S6、每一步选择Q值最大的动作,得出最优路径;

S7、把最优路径发送给移动机器人的控制器,控制移动机器人按照最优路径行走;

步骤S1具体过程如下:对移动机器人获得的环境图像进行分割处理,将图像分割成20×20的栅格,采用栅格法建立环境模型,如果在格栅中发现障碍物,则定义该栅格为障碍物位置,机器人不能经过;如果格栅中发现目标点,则定义该格栅为目标位置,为移动机器人最终要到达的位置;其他的栅格定义为无障碍物的栅格,机器人可以经过,根据公式(1)计算每个格栅的引力值;

其中,ζ是大于0的尺度因子,用来调节引力大小;|d|为当前位置与目标点所在位置的距离;η为正常数,防止目标点处引力值出现无穷大;

步骤S2中,所述参数包括:学习率ɑ∈(0,1),折扣因子γ∈(0,1),最大迭代次数,奖励函数r,贪婪因子动态调整策略参数εmax,εmin,T,n;

利用公式(2)初始化Q值函数

, , ,

其中,P(s |s,a)为从当前状态s和动作a确定的情况下转移到下一状态s的概率,V(s),为下一状态的状态值函数,V(s)=Uatt; 为当前状态s和采取动作a所获得的奖励值,中的S为状态集,Uatt为当前位置的引力值;

步骤S3中,贪婪因子调整策略如下:

其中tanh函数的具体形式如下:

e为自然对数的底,当自变量大于0时,tanh()的取值范围为(0,1);stdn为连续n次迭代次数下的步数标准差;T为系数,与模拟退火算法中的温度值作用相反,T越大随机性越小;

εmax和εmin分别为所设置的探索率的最大值和最小值。

2.根据权利要求1所述的引入人工势场的强化学习路径规划方法,其特征在于:步骤S4中,执行第三步所选择的动作a,到达s,得到即时奖励R(s,a),利用引入人工势场的Q‑learning算法更新Q值函数,更新规则如式(5)

, ,

其中,(s,a)为当前状态‑动作对;(s ,a)为下一时刻的状态‑动作对;R(s,a)为状态s下执行动作a的即时奖励,ɑ为学习率,γ为折扣因子。

3.根据权利要求1所述的引入人工势场的强化学习路径规划方法,其特征在于:尺度因子ζ设置为0.6,常数η设置为1。

4.根据权利要求1所述的引入人工势场的强化学习路径规划方法,其特征在于:学习率ɑ=0.01,折扣因子γ=0.9,最大迭代次数设置为20000次,εmax=0.5,εmin=0.01,T=500,n=

10,奖励函数设置为: