欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2018115294307
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
专利领域: 控制;调节
更新日期:2024-02-26
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于传感器融合与Q学习算法的动态避障方法,其特征在于,包括以下步骤:S1:设置机器人运动时与障碍物的安全距离dm、目标点坐标位置信息(xt,yt)和目标半径范围Rm;xt、yt分别表示目标点的中心在静态地图中的横轴、纵轴坐标,,R表示以(xt,yt)为中心的半径为dwin的区域都可算到达目的地;

S2:根据地图信息与环境信息确定机器人当前的位姿(xr,yr,θr),θr是机器人实时的运动方向与X轴的夹角,并结合静态地图信息与目标点坐标位置信息(xt,yt)进行导航路径规划,并开始前进;

S3:导航过程中,将声纳传感器检测到的环境数据Si和激光传感器检测到环境数据Li进行预处理与特征化,然后相融合得到环境数据Ei;

S4:根据融合后的环境数据Ei判断当前机器人状态是否需要进行动态避障,如果需要则进入S5,不需要则进入S6;

S5:利用改进Q学习动态避障算法,改进Q学习动态避障算法改进在于设计动作状态上分得更细化,得到下一步的动作状态(a,θ);a代表移动机器人的运动状态,θ∈W代表执行动作时机器人所偏转的角度;

S6:判断机器人是否到达目标点(xt,yt),如果没有则返回S2继续导航,如果已到达则结束导航。

2.根据权利要求1所述的基于传感器融合与Q学习算法的动态避障方法,其特征在于,所述步骤S3将声纳传感器检测到的环境数据Si和激光传感器检测到环境数据Li进行预处理与特征化,然后相融合得到环境数据Ei,具体包括:将声纳传感器数据Si(i=1,2,…,16)进行预处理,在转换为环境特征参数Sfi(i=1,2,…,16);激光传感器的数据需先进行分区域处理后得到区域距离数据Li(i=1,2,…,8),再进行转换为距离特征参数Lfi(i=1,2,…,

8);

根据定义的安全距离dm,将声纳传感器的距离数据值转换为距离特征值:Sfi=Si÷d(i=1,2,3,…,16)

将激光传感器的距离数据值转换为距离特征值:

Lfi=Li÷d(i=1,2,3,…,8)

激光传感器数据采用提取最小值得出一个代表该区域的距离值

Li=min(xi1,xi2,…,xin);(i=1,2,…,8;n为每个区域对应的数据个数)然后根据声纳传感器的环境特征数据和激光传感器的环境特征数据进行融合,得出当前的环境特征数据Ef1~Ef16,融合方式为:

3.根据权利要求2所述的基于传感器融合与Q学习算法的动态避障方法,其特征在于,所述将声纳传感器数据Si(i=1,2,…,16)进行预处理,在转换为环境特征参数Sfi(i=1,

2,…,16);激光传感器的数据需先进行分区域处理后得到区域距离数据Li(i=1,2,…,8),具体包括:先将机器人正前方作为参考起点,顺时针角度为负,逆时针角度为正,然后将测距传感器数据分为16个小区域E1~E16,声纳传感器的数据正好对应16个小区域E1~E16,而激光雷达的数据只提取-90°~+90°之间的数据,正好对应E1~E8区域;

4.根据权利要求2所述的基于传感器融合与Q学习算法的动态避障方法,其特征在于,所述步骤5改进Q学习动态避障算法具体包括:动作的选择策略采用的是贪婪动作,即对应当前状态下Q值最大的动作(a,θ),表示为s表示状态,A、w分别表示动作以及对应的角度,当机器人需要进行动态避障时,将该时刻的环境数据E1~E16、当前机器人位姿(xr,yr,θr)以及目标点坐标(xt,yt)作为Q学习输入,然后经过Q学习决策以后输出下一刻动作(a,θ):其中st是t时刻的状态,(at,θt)是t时刻的行为,Rt是t时刻行为对应的奖励值,是在t+1时刻采取的所有可能的行为在新状态下计算的最大Q值,α是学习率,γ是折扣因子。

5.根据权利要求4所述的基于传感器融合与Q学习算法的动态避障方法,其特征在于,所述动作(a,θ)的设计具体为,由4个动作A={a1,a2,a3,a4}和15个偏转角度W={0°,±45°,±90°,±135°,180°}配合:a∈A,a=a1代表移动机器人向前进,a=a2代表移动机器人向左转,a=a3代表移动机器人向右转,a=a4代表移动机器人停止;θ∈W代表执行动作时机器人所偏转的角度,其中,a=a1时对应的θ角应为0°,a=a2时对应的θ角应为{45°,90°,135°},a=a3时对应的θ角应为{-135°,-90°,-45°},a=a4时对应的θ角应为180°。

6.根据权利要求4所述的基于传感器融合与Q学习算法的动态避障方法,其特征在于,奖励R值的设计具体为:为了定义奖励函数,首先对机器人的状态s进行如下分类:

1)安全状态SS:机器人与环境中的任何障碍物碰撞的可能性很小或没有可能性的一组状态;

2)非安全状态NS:机器人与环境中的任何障碍物碰撞的可能性很高的一组状态;

3)获胜状态WS:机器人到达目标时的状态;

4)失效状态FS:机器人与障碍物碰撞时的状态。

根据机器人的状态的变化,定义奖励函数。

7.根据权利要求4所述的基于传感器融合与Q学习算法的动态避障方法,其特征在于,所述步骤S6具体为,根据机器人当前的坐标信息(xr,yr)判断机器人是否到达目标点(xt,yt):如果 表明机器人已经到达目标点范围内,已经是WS,结束此次导

航;

反之,表明机器人尚未达到目标点,仍需要继续导航,返回步骤S2继续执行,直到到达目标点。