1.一种用于多智能体编队动态路径规划的方法,其特征在于,包括:步骤S1:初始化环境信息,获取多智能体的目标位置;
步骤S2:所述多智能体中的领航智能体,根据所述多智能体的目标位置,获取所述领航智能体当前状态对应的领航值函数,根据所述领航值函数进行Q值初始化;
步骤S3:所述领航智能体采用分层强化学习算法进行策略学习,所述领航智能体在一个Option阶段内进行策略学习,根据学习到的策略选择动作,根据环境反馈得到回报或者终止信号,保存当前的状态、回报和动作信息后,根据领航智能体强化学习算法更新所述领航智能体Q值表;
步骤S4:所述多智能体中的跟随智能体,根据所述领航智能体的当前位置确定跟随智能体目标位置,根据所述跟随智能体目标位置,获取所述跟随智能体当前状态对应的跟随值函数,根据所述跟随值函数进行Q值初始化,根据贪婪策略选择动作,得到下一状态和回报,保存学习经验;
步骤S5:所述跟随智能体到达所述跟随智能体目标位置且到达次数达到预设阈值,根据跟随智能体强化学习算法更新所述跟随智能体Q值表;
步骤S6:重复上述步骤S3至步骤S5,直至所述多智能体到达所述目标位置或者学习回合数达到预设阈值。
2.根据权利要求1所述的方法,其特征在于,所述领航值函数
所述跟随值函数
其中,sT为所述领航智能体的当前状态,sf为所述跟随智能体的当前状态,δ为负向引力尺度因子,‑1<δ≤0,ρaim1为所述领航智能体的当前位置与所述目标位置的距离,ρ为栅格环境中斜对角线上两端点间的距离,ρaim2为所述跟随智能体的当前位置与所述跟随智能体目标位置的距离。
3.根据权利要求2所述的方法,其特征在于,所述步骤S3中,根据领航智能体强化学习算法更新所述领航智能体Q值,包括:通过以下公式更新所述领航智能体Q值:l+1 l l l
Q (st,at)=Q (st,at)+α×[rt+γ×maxaQ (st+1,a)‑Q (st,at)]+μ×α×[rt+1+γ×l l
maxaQ(st+2,a)‑Q(st+1,at+1)]其中,st为所述领航智能体当前时刻t的状态,at为所述领航智能体当前时刻t选择的动l+1 l
作,Q (st,at)为下一回合所述领航智能体移动至st时选择动作at的Q值,Q (st,at)为当前回合更新下一回合的Q值,α为学习因子,0<α≤1,rt为所述领航智能体在当前时刻选择动作策略后获得的回报,rt+1为所述领航智能体在下一时刻t+1选择动作策略后的预期回报,l
γ为折扣因子,maxaQ (st+1,a)为所述领航智能体在当前回合l下一时刻t+1选择最优动作策l
略得到的Q值,μ为正向策略尺度因子,0<μ≤α,maxaQ(st+2,a)为所述领航智能体在当前回l
合l下下一时刻t+2选择最优动作策略得到的Q值,Q (st+1,at+1)为当前回合所述领航智能体移动至st+1时选择动作at+1的Q值。
4.根据权利要求2所述的方法,其特征在于,所述步骤S5中,根据跟随智能体强化学习算法更新所述跟随智能体Q值,包括:通过以下公式更新所述跟随智能体Q值:τ
Qk+1(s,a)=(1‑αk)×Qk(s,a)+αk×[r+γ×maxQk(s′,a′)]其中,k为所述跟随智能体内部迭代次数,αk为所述跟随智能体的学习率α<αk≤1,α为学习因子,0<α≤1,γ为折扣因子,τ为所述跟随智能体从当前位置到达所述跟随智能体目标位置所经过的步数,maxQk(s′,a′)为所述跟随智能体在所述跟随智能体目标位置选择最优动作策略得到的Q值,Qk+1(s,a)为所述跟随智能体在下一回合移动至状态s时选择动作a的Q值,Qk(s,a)为所述跟随智能体在当前状态时的Q值,用于更新下一回合的Q值。
5.根据权利要求2所述的方法,其特征在于,所述步骤S2中,根据所述领航值函数进行Q值初始化,包括:通过以下公式初始化状态‑动作值函数:Q(sT,at)=r+γ×V(sT)其中,at为所述领航智能体的动作策略,r为回报,γ为折扣因子。
6.根据权利要求1所述的方法,其特征在于,所述步骤S3中,所述领航智能体根据学习到的策略选择动作,包括:通过以下公式调整策略选择因子ε, 其中,为当前学习回合数。
7.根据权利要求1所述的方法,其特征在于,所述步骤S3中,所述领航智能体在一个
0ption阶段内进行策略学习过程,设置最大循环次数。
8.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1至7中任一项所述的用于多智能体编队动态路径规划的方法。