1.一种事件触发下无人系统集群的无模型最优分组协同控制方法,其特征在于,包括以下步骤:S1、首先获取智能体的初始位置和速度信息,利用矩阵理论转换二阶智能体的动力学模型,得到同时包含智能体位置信息和速度信息的动力学方程;
S2、根据包含智能体合作竞争交互的局部邻域跟踪误差协议分别对智能体状态信息进行处理,得到该智能体的局部邻域跟踪误差;
S3、利用邻域跟踪误差和贝尔曼最优原理建立智能体的性能指标函数,并计算该智能体的最优控制策略;
S4、使用基于演员‑批评家神经网络的自适应动态规划方法拟合智能体的最优控制策略;
S5、为每个智能体设置事件触发阈值,当该智能体的局部邻域跟踪误差超过该阈值时更新其控制策略;
S6、智能体根据控制策略不断更新其状态信息,最终实现多智能体系统的最优分组一致。
2.根据权利要求1所述的一种事件触发下无人系统集群的无模型最优分组协同控制方法,其特征在于,所述S1利用矩阵理论转换二阶智能体的动力学模型,得到同时包含智能体位置信息和速度信息的动力学方程,具体包括:所述二阶智能体的模型为领导者‑跟随者模型,其中跟随者智能体的动力学方程为:其中,xi(k),ui(k),vi(k)分别表示智能体的位置信息、控制输入以及速度信息;矩阵A,B,C以及Ti是系统参数矩阵,并且是完全未知的;k是智能体迭代的时间步长;
所述领导者智能体的动力学方程为:
其中,x0(k),v0(k)分别是领导者智能体的位置和速度信息;
所述转换后的智能体动力学模型为:
其中跟随者智能体的状态为 领导者智能体的状态为
矩阵P,Si是转换后新的系统参数矩阵,矩阵A,B,C以及Ti是原系统参数矩阵,并且是完全未知的;k是智能体迭代的时间步长。
3.根据权利要求2所述的一种事件触发下无人系统集群的无模型最优分组协同控制方法,其特征在于,所述S2根据包含智能体合作竞争交互的局部邻域跟踪误差协议分别对智能体状态信息进行处理,得到该智能体的局部邻域跟踪误差,具体包括:所述包含智能体合作竞争交互的局部邻域跟踪误差协议包括:
其中,Γij是智能体之间的竞争系数,Γij<0代表着智能体i与智能体j之间存在竞争交互,相反,Γij>0代表着智能体之间的合作交互;aij是智能体i和智能体的邻接关系,如果智能体i可以收到智能体j的通信信息,则aij>0,否则,aij=0;当且仅当跟随者智能体i存在一条入度边来自领导者智能体,bi>0,否则,bi=0。yj(k)是转换后智能体j的状态信息、Ni表示智能体i的邻域智能体、δi(k)是智能体i的局部邻域跟踪误差协议。
4.根据权利要求3所述的一种事件触发下无人系统集群的无模型最优分组协同控制方法,其特征在于,所述S3利用邻域跟踪误差和贝尔曼最优原理建立智能体的性能指标函数,并计算该智能体的最优控制策略,具体包括:所述智能体的性能指标函数为:
Ji(δi(k),ui(k),uj(k))=Ui(δi(k),ui(k),uj(k))+αJi(δi(k+1),ui(k+1),uj(k+1))其中 是智能体i的回报函数,α∈(0,1]是强化学习领域中的折扣因子;Qii≥0,Rii≥0,Rij≥0是正对称加权矩阵,通常设置为单位矩阵;为了方便研究,简化公式Ji(δi(k),ui(k),uj(k))=Ji(δi(k))以及Ui(δi(k),ui(k),uj(k))=Ui(δi(k),ui(k));
所述最优控制策略为:
其中,bi是智能体i与领导者智能体的关系参数,当且仅当跟随者智能体i存在一条入度边来自领导者智能体,bi>0,否则,bi=0,di是智能体i的入度、 是智能体i的最优控制策略、 是矩阵Rii的逆矩阵。
5.根据权利要求4所述的一种事件触发下无人系统集群的无模型最优分组协同控制方法,其特征在于,所述S4使用基于演员‑批评家神经网络的自适应动态规划方法拟合智能体的最优控制策略,具体包括:所述批评家神经网络为:
其中,ksi为智能体i的事件触发时刻,ksi+1为智能体i下一事件触发时刻; 是智能体i的批评家神经网络权重,zci(·)是包含跟踪误差δi信息的输入向量,ψci(·)是激活函数;
为近似性能指标函数。
所述Critic神经网络为:
其中, 是智能体i近似最优控制策略,ψai(·)是激活函数,zai(·)是包含跟踪误差δi信息的输入向量, 智能体i的演员神经网络权重;
在演员‑批评家神经网络权重的更新规则中,仅仅使用系统过去和当前的数据,并没有涉及到多智能体系统精确的系统模型,即使系统参数矩阵P和Si是未知的也不会影响神经网络权重的更新。
6.根据权利要求5所述的一种事件触发下无人系统集群的无模型最优分组协同控制方法,其特征在于,所述S5为每个智能体设置事件触发阈值,当该智能体的局部邻域跟踪误差超过该阈值时更新其控制策略,具体包括:所述智能体的事件触发阈值为:
‑σk 2
其中Z=η 是过滤函数,事件触发参数F,η,σ是正数且满足F‑2σlnη<0, 是智能体j的演员神经网络权重,zaj(ksj+1)是包含跟踪误差δj(ksj)信息的输入向量,ei(k)是智能体的事件触发误差;k1为智能体i的第一次事件触发时刻,ksi+1为智能体i下一事件触发时刻。
7.根据权利要求6所述的一种事件触发下无人系统集群的无模型最优分组协同控制方法,其特征在于,所述S6智能体根据控制策略不断更新其状态信息,最终实现多智能体系统的最优分组一致,具体包括:当异质多智能体系统满足以下条件时,所有的智能体可以达到分组一致;满足的条件为:其中,如果第i个智能体和领导者智能体在同一子网,那么牵制参数ci=1,否则ci=‑1;
x0(k)、v0(k)分别表示领导者智能体在k时刻的位置和速度信息,xi(k)、vi(k)分别表示智能体i在k时刻的位置和速度信息。
考虑由一个领导者智能体和N个跟随者智能体组成的离散二阶多智能体系统,其通信拓扑可以抽象为图 其中 是图的顶点集,每一个顶点代表着多智能体系统中的一个智能体; 是图的所有的边组成的集合;在
有向图中,有向路径(vi,vj)是指从顶点vi到顶点vj的一系列连续的边{(vi,vn),(vn,vm)...,(vm,vj)},矩阵 是多智能体系统的加权邻接矩阵,如果智能体i可以收到智能体j的通信信息,则aij>0,否则,aij=0;定义顶点vi的邻接顶点集为则顶点vi的入度为D=diag{d1,d2,...,dN},其中