1.一种移动机器人的智能轨迹跟踪控制方法,其特征在于,所述方法包括以下步骤:
1)建立一个非线性移动机器人动力系统:其中 xe表示机器人x坐标的姿态误差,ye表示y坐标的姿态误差,φe表示方向n n n*m
角的误差且x(t)∈R ,f(x(t))∈R,g(x(t))∈R ;
f(x)+g(x)u在Ω上满足Lipschitz连续,该移动机器人动力系统在Ω上是可以稳定的,即存在一个连续的控制函数u(t)∈U使得系统在Ω上渐近稳定;
2),初始化系统的状态,并给定初始策略u0:
3)利用强化学习策略迭代的方法更新权值,求取最优策略,过程如下:
3.1)策略评估:
策略评估是在当前策略下计算出下一时刻的状态值。每一次策略评估都是一个迭代计算过程,即每次进行策略评估时,需要基于前一个策略的价值函数开始计算。这通常会显著提高策略评估的收敛速度;
定义价值函数:
其中x(τ)表示在初始条件x(t)对式(1)解;
r(x,u)表示一个积分强化项:T
r(x,u)=Q(x)+uRu (4)其中Q(x)是一个正定矩阵, 并且只有在x=0时,Q(x)=0与控制策略相关联的成本函数看成:
其中u(i)是第i次迭代的控制策略,x(t)是t时刻下的状态;
3.2)策略改进:
u
根据已经求解了与控制策略i相关联的成本函数V L,执行策略更新步骤,因此,策略更新方法是:
最后得到:
4),引入神经网络算法并利用最小二乘的收敛性计算权值,过程如下:u
在最小二乘意义下,确定逼近成本函数VL的神经网络的参数;
定义:
T
Φ=<[φL(x(t+T))‑φL(x(t))],[φL(x(t+T))‑φL(x(t))]> (9)其中L是神经网络结构的神经元参数,φL(x)是a‑c结构中的激活函数;
神经网络结构逼近下的价值函数:u(i) u(i)
VL (x)=(ωL )φL(x) (10)调整价值函数逼近的参数WL,使目标最小化,得到:
5)停止策略更新
策略迭代(9)和(11)具有一致的收敛性,最终收敛于初始轨迹上的收敛解.当两个连续步骤中的价值函数误差小于给定的阈值,需要再次调整神经网络的参数;