1.一种多智能体轨迹更新迭代学习的点到点跟踪控制方法,其特征在于,包括以下步骤:步骤1、构建异构离散多智能体系统的模型;
步骤2、分析异构离散多智能体系统中各智能体之间的信息交换关系,使用有向图构建多智能体系统的通信拓扑结构,其中只有一个或多个跟随者智能体能获取领导者信息,且由领导者和跟随者组成的通信拓扑图包含一个以领导者为根节点的生成树;
步骤3、给定所有跟随者智能体的初始状态条件;
步骤4、根据期望位置点设计一种目标轨迹更新方法,并求解目标轨迹更新方法的参数,通过更新目标轨迹使得新目标轨迹渐近收敛到系统输出;
步骤5、为跟随者智能体设计基于目标轨迹更新的P型迭代学习方法,求解P型迭代学习方法的参数,从而实现多智能体系统在有限时间内对期望位置点完全跟踪。
2.根据权利要求1所述的一种多智能体轨迹更新迭代学习的点到点跟踪控制方法,其特征在于,步骤1中,由n个不同的智能体构成的异构离散多智能体系统模型为:其中,k表示迭代次数,i代表第i个智能体,i=1,2,…,n,t∈[0,N]为一个周期内的采m样时间点; 和yi,k(t)∈R分别表示智能体i的状态、控制输入和系统输出;
是具有相应维数的矩阵;
定义
则系统(1)以紧凑矩阵形式写成:
其中,A=diag{A1,A2,…,An},B=diag{B1,B2,…,Bn},C=diag{C1,C2,…,Cn};
将系统(2)转换成基于时间序列的输入输出矩阵模型:yk=Puk+Qxk(0), (3)其中,yk=[yk(0),yk(1),…,yk(N)]T,uk=[uk(0),uk(1),…,uk(N)]T,Q=[C CA CA2 CA3…CAN-1],
给定本发明待跟踪的时间点T={t1,t2,…,tM},考虑采用新控制方法实现多智能体系统对期望位置点的跟踪,即yi,k(ts)→yd(ts),s=1,2…,M,并且有0≤t1<t2<…<tM≤N,其中yd(ts)是期望位置点;将期望位置点yd(ts)看成是由虚拟的领导者生成的,s=1,2…,M;
并将系统中n个智能体看作是跟随者,且只有部分跟随者智能体能直接获取领导者信息。
3.根据权利要求2所述的一种多智能体轨迹更新迭代学习的点到点跟踪控制方法,其特征在于,步骤2中,使用有向图 表示多智能体系统的拓扑结构,其中图G的节点集合V={1,2,…,n}对应n个智能体,图G的边集 对应智能体之间的信息交流传递,边的权重aij≥0,aii=0,i,j∈V,矩阵 是加权邻接矩阵;若有向图中节点j可以从节点i获得信息,则该节点对连边用eij=(i,j)∈E表示;若eij∈E,则加权邻接矩阵中的元素aij>0,否则为0,并且aii=0, 智能体i的邻居集合为Ni={j∈V:(i,j)∈E};图G的拉普拉斯矩阵 矩阵D为图G的度矩阵,式中有向图G中,节点i1到节点is的有向路径是指一系列边的有序列(i1,i2),…,(is-1,is);
有向图G中如果存在一个节点i到其它任意节点都有一条有向路径,则节点i为根节点,若图G有根节点,则该有向图有一个生成树;
当加入领导者后,n个跟随智能体和领导者组成图 智能体i与领导者之间的信息传递用si表示,si>0表示智能体与领导者有联系,si=0表示智能体与领导者没有联系;
在有向图 中,若存在一个以领导者为根节点的有向生成树,意味着领导者有一条有向通路通往所有跟随者智能体。
4.根据权利要求3所述的一种多智能体轨迹更新迭代学习的点到点跟踪控制方法,其特征在于,步骤3中,所有跟随者智能体的初始状态重置条件为:xi,k(t)=0, (4)。
5.根据权利要求4所述的一种多智能体轨迹更新迭代学习的点到点跟踪控制方法,其特征在于,步骤4中,目标轨迹更新方法如下:ri,k+1(t)=yd(t)+hi(t)fi(t), (5)其中,ri,k+1(t)为第i个智能体在第k次迭代学习更新后的目标轨迹,yd(t)是经过期望位置点yd(ts)的任意轨迹,hi(t)=(t-t1)(t-t2)…(t-tM),fi(t)为任意离散函数;
令rk(t)=[r1,k(t),r2,k(t),…,rn,k(t)]T,f(t)=[f1(t),f2(t),…,fn(t)]T,H(t)=diag{h1(t),h2(t),…,hn(t)},Yd(t)=[yd(t),yd(t),…,yd(t)]T则式(4)转换成:rk+1(t)=Yd(t)+H(t)f(t), (6)再将式(6)写成基于时间序列的形式:
rk+1=Yd+Hf, (7)
其中:
rk+1=[rk+1(0),rk+1(1),…,rk+1(N)]T,Yd=[Yd(0),Yd(1),…,Yd(N)]T,H=diag{H(0),H(1),…,H(N)},f=[f(0),f(1),…,f(N)]T,
由于点到点跟踪是要求每次更新的目标轨迹在需要跟踪的时间点T={t1,t2,…,tM}的值与给定期望点保持一致,即ri,k(ts)=yd(ts),则式(7)进一步转换成任意采样点处的目标轨迹:rk+1=rk+Hf, (8)
令f=F(rk-yk),其中F为实对角矩阵,则式(8)表示为:rk+1=rk+HF(rk-yk), (9)令λk=HF,由于矩阵H和矩阵F都是对角矩阵,则λk也为实对角矩阵,且式中, 则目标轨迹更新方法(9)变成:
rk+1=rk+λk(rk-yk), (10)采用迭代学习控制算法对固定轨迹的跟踪要求随着迭代次数的增多,系统输出yi,k(t)渐近收敛到固定轨迹yd(t),即||yd-yk+1||≤||yd-yk||, (11)本目标轨迹更新算法是使得新目标轨迹ri,k(t)渐近收敛到系统输出yk(t),即||rk+1-yk||≤||rk-yk||, (12)对于点到点跟踪控制问题,采用目标轨迹更新算法rk+1=rk+λk(rk-yk),若满足||I+λk||=1,且λk满足 则可得到||rk+1-yk||≤||rk-yk||,T表示待跟踪的时间点T={t1,t2,…,tM}。
6.根据权利要求5所述的一种多智能体轨迹更新迭代学习的点到点跟踪控制方法,其特征在于,步骤5中,基于目标轨迹更新的P型迭代学习方法如下:首先,给出每个智能体的跟踪误差为:
ei,k(t)=ri,k(t)-yi,k(t), (13)eij,k(t)=yj,k(t)-yi,k(t),j∈Ni, (14)其中,ei,k(t)代表第k次迭代时智能体i的输出与迭代更新后的目标轨迹之间的误差,而eij,k(t)则表示第k次迭代时智能体和其邻居智能体之间的误差;
令ξi,k(t)表示在第k次迭代中智能体i接收或测量的信息,我们得到其中,aij是边的权重,并且si是智能体i与领导者之间的耦合权重;
由于eij,k(t)=ei,k(t)-ej,k(t),所以式(15)转换成:定义ek(t)=[e1,k(t),e2,k(t),…,en,k(t)]T,ξk(t)=[ξ1,k(t),ξ2,k(t),…,ξn,k(t)]T,利用图论知识,则式(16)可写成:其中,S=diag{s1,s2,…,sn},并且L是G的拉普拉斯矩阵,Im表示m×m维单位矩阵;
将式(17)也写成基于时间序列的形式,即:
ξk=Mek, (18)
其中,ek=[ek(0),ek(1),…,ek(N)]T,ξk=[ξk(0),ξk(1),…,ξk(N)]T,考虑对每一个跟踪者智能体采用P型迭代学习方法去解决多智能体系统对期望点的跟踪控制问题,迭代学习方法如下所示:ui,k+1(t)=ui,k(t)+Γiξi,k+1(t), (19)其中, 为学习增益;
令uk(t)=[u1,k(t),u2,k(t),…,un,k(t)]T,ξk(t)=[ξ1,k(t),ξ2,k(t),…,ξn,k(t)]T,则式(19)转换成:uk+1(t)=uk(t)+Γξk+1(t), (20)其中,Γ=diag{Γ1,Γ2,…,Γn};
其次,令ξk=[ξk(0),ξk(1),…,ξk(N)]T,uk=[uk(0),uk(1),…,uk(N)]T,式(20)可转换成:其中,
将式(18)代入式(21)得迭代学习控制方法:
由式(10)和式(22)可得出基于目标轨迹更新的迭代学习方法为:对于离散异构多智能体系统(1),在基于目标轨迹更新的迭代学习方法(23)作用下,如果不等式 成立,随着迭代的进行,跟随者的输出轨迹会收敛到期望点,即当k→∞时,yk+1(ts)=yd(ts)。