欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2021105758468
申请人: 浙江工业大学
专利类型:发明专利
专利状态:已下证
专利领域: 控制;调节
更新日期:2023-12-11
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于深度强化学习的移动机器人导航避障方法,其特征在于,所述方法包括以下步骤:

1)采用深度学习中深层循环神经网络与强化学习中的时间差分法训练价值网络模型从而实现机器人导航避障;

2)将机器人和每个人简化为圆,定义机器人在t时刻状态:St=[px,py,v,θ,gx,gy,r,vpref]  (1)其中,px,py,表示机器人当前位置,v表示机器人当前速度,θ表示机器人的方位角,gx,gy表示机器人目标位置,r表示机器人的半径,vpref表示机器人的首选速度;

定义每个人在t时刻状态:

定义奖惩函数:

其中,at=vt表示机器人的动作,dmin表示在Δt时间内机器人与人之间最小间隔距离,dcomf表示人能够忍受的舒适距离,dgoal表示机器人当前位置到目标点的距离;

3)将St与Ot输入到带初始权重的深层循环神经网络中,机器人模仿人类专家的导航策略获得演示经验D,并将D存入初始化的经验池E中,再利用随机权重值θ初始化价值网络V1,将目标价值网络V'初始化为当前价值网络V2,循环每次事件,得到最优价值网络V;

4)建立二维栅格地图,设置全局的目标点,利用预训练好的最优价值网络V,不断更新机器人与人的联合状态:Kt=[St,Ot]  (4)

5)再利用RRT*算法规划出一条全局最优的路径,制定最优策略其中,A表示动作空间的集合,γ∈(0,1)表示衰减因子,Δt表示两个动作之间的时间*间隔,vpref表示首选速度,V(Kt+Δt)表示在t+Δt时刻的最优值;

6)通过最优策略选择最优动作at,即最优速度vt,实现局部避障,直到机器人到达目标点位置;

所述步骤1)中,价值网络模型由交互模块、池化模块和规划模块三个部分组成,交互模块使用多层感知器将第i个人的状态和机器人的状态嵌入到固定长度的向量ei:ei=ψe(St,Ot;We),i=1,2,3,…n  (6)其中,ψe是一个具有激活函数的多层感知器,用来对人与机器人交互进行建模,We是嵌入权重;

再将嵌入向量ei输入到后续多层感知器中:

hi=φh(ei;Wh),i=1,2,3,…n  (7)其中,φh是一个具有非线性激活函数的全连接层,得到机器人与第i人的交互特征,Wh是网络权重;

池化模块首先将交互嵌入向量ei转化为注意力分数βi:

βi=ρβ(ei,em;Wβ),i=1,2,3,…n  (9)其中,em是将所有个体平均池化得到的固定长度的嵌入向量,ρβ是一个具有激活函数的多层感知器;

再将给出两两交互向量hi和相应的关注分数βi,最后计算人群是用所有对的加权线性组合表示:规划模块是用来估计导航过程中机器人和人群的联合状态值:v=gv(St,Ct;Wv)  (11)

其中,gv是一个具有激活函数的多层感知器,Wv是网络权重。

2.如权利要求1所述的一种基于深度强化学习的移动机器人导航避障方法,其特征在于:所述步骤3)中,循环每次事件过程如下:初始化随机联合状态Kt,循环每个事件的每一步,利用概率ε选择一个随机动作at,若小概率事件没有发生,则用贪婪策略选择当前值函数最大的动作:不断更新当前的状态和奖励值,将状态和奖励值存入到经验回放池中,每3000步更新一次经验池,通过梯度下降法更新当前的价值网络,直到机器人到达最终状态,结束每次事件的内循环,将当前网络更新为目标网络,当达到事件次数后,得到最优价值网络V。

3.如权利要求1所述的一种基于深度强化学习的移动机器人导航避障方法,其特征在于:所述步骤4)中,加入一种基于地图的速度筛选机制,形成安全的行动空间,使机器人能够避开环境中已知的障碍物,在每次决策的过程中,安全动作空间由机器人当前位置pt、二维网格图M和初始化动作空间构成A,即Asafe=(pt,M,A),对于动作空间中的每个速度,进行正向模拟,观察机器人是否会与地图中的障碍物发生碰撞。

4.如权利要求1所述的一种基于深度强化学习的移动机器人导航避障方法,其特征在于:所述步骤5)中,在建立二维栅格地图上,用RRT*算法在机器人当前位置和全局目标之间生成一条代价最小的全局路径,然后遍历全局路径上的所有路径点,以机器人的当前位置为圆心,r为半径的圆内找到最近的点,将其设为动态局部目标。