欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2021106486352
申请人: 杭州电子科技大学
专利类型:发明专利
专利状态:已下证
专利领域: 控制;调节
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种结合深度Q学习的机器人路径学习与避障系统,其特征在于包括动作模块、学习模块和障碍物避险模块;在路径规划期间,动作模块会从学习模块和障碍物避险模块接收指令,并让机器人根据指令完成指定动作;学习模块根据机器人当前状态和动作的历史数据序列,训练动作选择策略;障碍物避险模块执行随机树搜索算法,以指导机器人从危险情况避险得到安全路径;

每个模块在执行后,环境中机器人的当前状态都将发生变化;然后通过安排机制评估每个模块的风险并确定应激活风险最小的模块;即机器人是否应该摆脱当前的困境或更新从历史数据序列动作的结果中学到的行动策略;

所述的当前状态包括机器人当前所在位置坐标;

该系统的实现具体包括如下步骤:

步骤1、初始化机器人参数,机器人上设置有动作模块、学习模块和障碍物避险模块,同时还设置有距离传感器;

距离传感器用于检测当前机器人与最近障碍物的距离,并实时将该距离发送给学习模块,学习模块通过判断当前距离决定是否进入障碍物避险模块;

步骤2、基于Q学习构建机器人路径学习与避障的历史数据序列;

2‑1.使用神经网络来计算Q学习,具体:定义St为在时间t时机器人的状态,at为在时间t时执行的动作;令x(t)=(St,at)是时间t处的状态动作对;然后路径规划中将时间从0到t的历史数据序列用Dh表示:Dh=(x(1),x(2),...,x(t))  (1)NN

令NN作为Q学习策略中采用的神经网络;且NN是具有两层的BP网络;Q 是基于历史数据NN

序列学习得到的Q值矩阵;通过历史数据训练NN,并作为Q值函数Q 进行,即:NN

Q :A→R     (2)

其中A表示当前所有可能动作的集合,R表示集合A中每个可能动作对应的偏好值的集合;

S S

定义A为在当前状态S能够访问的一组动作,即:任何动作a∈A都是可供选择的候选对象;令qa成为当前状态S处NN评估的偏好值;然后,选择采用玻尔兹曼分布,如下所示:在式(3)中,p(a|S)是机器人处于状态S并选择动作a作为下一个动作的概率;如果动作a对应的qa值较高,则 的值也较高,并且a的选择概率较高;T是虚拟温度因子,用于表示动作选择中的随机程度;

历史数据序列Dh用作训练样本;对于Dh中的每个样本x(t)为其分配标签,通过标签指示该样本是正面的还是负面的;对于状态S,定义 为状态S与目标之间的距离, 为状态S和最近障碍物之间的距离;假设奖励值r=(S,a)表示在状态S下选择动作a获得的奖励。

2.根据权利要求1所述的一种结合深度Q学习的机器人路径学习与避障系统,其特征在于

如果奖励值r是正的,则 的值应该低于 且 的值应该低于 具体地,标签表如下所示:

S′是当前状态S在选择动作后达到的下一个状态;对于 和 考虑 和来检查是否一个动作可以引导一个更为安全的路径;对 设置一个阈值Td0,因为如果机器人和障碍物之间保持足够的距离则以不用考虑障碍物;

对于 和 考虑 和 来检查是否一个动作能够引导一个更为安全的路径;因为如果机器人接近目标,应该更注意 的值,因此我们也需要对 设置阈值Tdt;

将状态从S到S′的变化进行分类,设置奖励机制:r=ki×ri;在该奖励机制中,ri是能够选择的单位奖励{r1,r2,r1′,r2′};ki是依赖于 和Tdt之间关系的提升因子,在不同的条件下,能够选自{k1,k2,k3,k4};此外,如果 的值低于撞击阈值Tdhit,机器人通过其动作不能避免达到障碍,因此为r设置负值‑2。

3.根据权利要求2所述的一种结合深度Q学习的机器人路径学习与避障系统,其特征在于在每个操作之后,将更新该组历史数据序列,并且重新培训NN。

4.根据权利要求2所述的一种结合深度Q学习的机器人路径学习与避障系统,其特征在于利用快速随机树算法,以防止机器人选择可能导致击打墙壁的动作;当机器人获得状态S时,能够得到机器人与障碍物之间的距离 将阈值Th设置为大于机器人撞击阈值Tdhit;当小于等于Th时,机器人进入障碍物避险模块,模块中的障碍物避险策略发挥重要作用;当时,机器人退出障碍物避险模块,其中p是机器人的步长。

5.根据权利要求4所述的一种结合深度Q学习的机器人路径学习与避障系统,其特征在于机器人进入障碍物避险模块,障碍物避险策略实现如下:假设状态S被描述为一个节点的机器人位置S(x,y),机器人在初始节点S0始遵循障碍物避险策略;然后,机器人任意选择在状态空间中随机产生的位置状态Srand;选择之后,该障碍物避险策略将沿着Srand方向探索步长为p的节点S1,从而得到下一状态S1;重复步骤能够得到S1,S2,...,Sk,从而形成局部状态随机树;直到第k个树节点满足停止条件:执行障碍物避险策略才会停止并退出;最终机器人获得路径S0→Sk,这能够帮助机器人从障碍物中逃脱并更接近目标;在这条道路上,机器人停留在Sk上,继续通过学习网络探索道路。

6.根据权利要求2或5所述的一种结合深度Q学习的机器人路径学习与避障系统,其特征在于机器人根据每个动作的偏好值选择下一阶段选择最终动作;最直接的方法是选择具有最高优先级值的操作,即选择对应偏好值高的动作作为下一阶段选择最终动作。