1.一种基于策略迭代的移动机器人轨迹跟踪控制方法,其特征在于,所述方法包括以下步骤:步骤1)建立移动机器人的运动学模型
T
令 u=[1 va wa]
其中(x1,x2),x3分别为机器人姿态与虚拟参考信号之间的位置误差和方向误差,va,wa分别表示机器人的线速度和角速度,vr、wr分别为参考位置的线速度和角速度;
步骤2),设计Actor神经网络,过程如下;
2.1)考虑输入动力系统中的非线性时不变仿射,如式(2)所示:设系统动力学f(x),g(x)已知,对于任何容许的输入u,定义其代价函数,如式(3)所示:那么公式(3)的无穷小版本为非线性Lyapunov函数,如式(4)所示:u
式中, 表示值函数V相对于x的偏导数,公式(4)是一个非线性系统的Lyapunov函u数,在给定控制器u(x)∈Ψ(Ω)的情况下,求解与其相关的代价函数V (x);设定u(x)是允u u许的控制策略,如果V(x)满足公式(4),则V (x)是具有控制策略u(x)的连续时间系统(2)的Lyapunov函数;
最优控制问题表述为:给定连续时间系统(2),利用控制策略和代价函数(3),找到一个可容许的控制策略,使得与连续时间系统(2)相关的代价函数(3)最小,则最优成本函数V*(x)定义为假设公式(5)右边的最小值存在且唯一,则给定问题的最优控制函数为
2.2)策略评估
i u(i) u(i)
对于已求出的u (x),通过公式(7)求出当前策略下的代价函数V x(t),用V x(t)对当前的策略进行评估;
2.3)策略改进
使用公式(8)对策略进行改进
但为了保证策略迭代算法的收敛性,需要给系统一个初始容许策略u(0)∈Ψ(Ω);
步骤3)设计Critic神经网络,过程如下:
3.1)代价函数的神经网络逼近
为了求解公式(7),使用神经网络类型的结构来获得任何x∈Ω的代价函数的近似值,由于普遍逼近性质,神经网络是在紧集上逼近光滑函数的自然候选,因此,对于x∈Ω,代价u(i)函数V (x)由公式(9)表示:
1
公式(9)看作是一个隐藏层上有L个神经元的神经网络,激活函数φj(x)∈C (Ω),φj(0)=0, 是激活函数的向量, 表示输出层的权重,其值求解如式(10)所示,其中是权重向量,输出层神经元具有线性激活函数,隐藏层的权值都等于1,在训练过程中不会改变;
步骤4)Actor/Critic结构的在线算法。
2.如权利要求1所述的一种基于策略迭代的移动机器人轨迹跟踪控制方法,其特征在于,所述步骤4)的过程如下:先初始化控制策略u(0),然后在感兴趣区域沿状态轨迹收集足够数量的数据点后,实时获得由公式(10)给出的权值W;当在两个连续步骤中评估的系统性能之间的误差小于指定的阈值时,迭代将停止;当这个误差大于上述阈值时,表明系统动力学发生了变化,Critic将再次决定开始调整Actor参数。