欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2019109088716
申请人: 吉林大学珠海学院
专利类型:发明专利
专利状态:已下证
专利领域: 测量;测试
更新日期:2025-04-01
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种AGV车导航控制方法,其特征在于,该方法包括:S10,为目标AGV车设定起始位置、目标位置及导航任务;

S20,目标AGV车根据起始位置和目标位置通过深度强化学习方法计算并进行评估,得到价值策略网络;

S30,根据价值策略网络确认AGV车从起始位置抵达目标位置的最大化预期收益。

2.根据权利要求1所述的AGV车导航控制方法,其特征在于,所述步骤S10具体包括:S11,为目标AGV车设定固定运动场所,其中场所还包括有其他多个AGV车;

S12,根据所述目标AGV车的目标位置及首选速度矢量,确定导航的联合状态。

3.根据权利要求2所述的AGV车导航控制方法,其特征在于,所述步骤S20通过群机交互模型进行深度强化学习方法并得到价值策略网络,所述群机交互模型包括交互模块、池化模块及规划模块,其中,所述交互模块用于模拟群机交互规则,并通过局部地图对群机交互进行编码,所述群机交互为多个AGV车的交互;

所述池化模块用于通过自注意机制将交互聚合到固定长度的嵌入向量;

所述规划模块用于评目标AGV车与其他AGV车的联合状态的值以进行导航。

4.根据权利要求3所述的AGV车导航控制方法,其特征在于,所述交互模块具体包括:构建局部地图,所述局部地图包括以每个AGV车i为中心的地图张量Mi来编码邻居AGV车的存在和速度矢量,其中,其中w′j=(vxj,vyj,1)为其他AGV车j的局部状态向量,δmn[xj-xi,yj-yi]为指标函数,Ni是第i个AGV车ith周围的邻近AGV车的集合;

使用多层感知器将其他AGV车i的状态、地图张量Mi以及机器人的状态嵌入到固定长度矢量ei中,具体为ei=φe(s,wi,Mi,We),其中φe(·)是具有ReLU激活的嵌入函数,We是嵌入权重,嵌入向量ei被馈送到随后的多层感知器以获得目标机AGV和其他AGV之间的成对交互特征hi=ψh(ei,Wh),其中ψh(·)是具有ReLU非线性的完全连接层,Wh是网络权重。

5.根据权利要求3所述的AGV车导航控制方法,其特征在于,所述池化模块具体包括:通过池化模型完成了解每个相邻AGV车的相对重要性以及机群以数据驱动方式的集体影响,包括:将交互嵌入ei被转换为注意分数ai,转换方式为 及ai=ψa(ei,em,Wa),其中em是通过平均汇集所有AGV个体获得的固定长度嵌入向量,ψa是具有ReLU激活的多层感知器,Wa是权重;给定成对交互向量hi和每个AGV车i的对应关注度得分αi,群体c的最终表示是所有对的加权线性组合:

6.根据权利要求5所述的AGV车导航控制方法,其特征在于,所述规划模块具体包括:通过v估计合作规划的状态值,其中v=fv(s,c,Wv),其中fv(·)是具有ReLU激活的多层感知器,权重由Wv表示。

7.根据权利要求1所述的AGV车导航控制方法,其特征在于,所述步骤S30具体包括:设st表示机器人的状态, 表示其他机器人在时间t的状态,机器人导航的联合状态定义为

最优政策 则最大化的预期收益为

其中

其中, 是在时间t收到的奖励,γ∈(0,1)为折扣因子,V*是最优值函数,是从时间t到时间t+Δt的转移概率,dt是机器人和其他机器人在时间段[t-Δt,t]之间的最小间隔距离。

8.一种AGV车导航控制系统,用于执行权利要求1-7任一所述方法,其特征在于:设定模块,用于为目标AGV车设定起始位置、目标位置及导航任务;

深度强化学习模块,对目标AGV车根据起始位置和目标位置通过深度强化学习方法计算并进行评估,得到价值策略网络;

收益预期模块,用于根据价值策略网络确认AGV车从起始位置抵达目标位置的最大化预期收益。