欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2021101481140
申请人: 浙江工业大学
专利类型:发明专利
专利状态:已下证
专利领域: 控制;调节
更新日期:2023-12-11
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种移动机器人的智能轨迹跟踪控制方法,其特征在于,所述方法包括以下步骤:

1)建立一个非线性移动机器人动力系统:其中 xe表示机器人x坐标的姿态误差,ye表示y坐标的姿态误差,φe表示方向n n n*m

角的误差且x(t)∈R ,f(x(t))∈R,g(x(t))∈R ;

f(x)+g(x)u在Ω上满足Lipschitz连续,该移动机器人动力系统在Ω上是可以稳定的,即存在一个连续的控制函数u(t)∈U使得系统在Ω上渐近稳定;

2),初始化系统的状态,并给定初始策略u0:

3)利用强化学习策略迭代的方法更新权值,求取最优策略,过程如下:

3.1)策略评估:

策略评估是在当前策略下计算出下一时刻的状态值。每一次策略评估都是一个迭代计算过程,即每次进行策略评估时,需要基于前一个策略的价值函数开始计算。这通常会显著提高策略评估的收敛速度;

定义价值函数:

其中x(τ)表示在初始条件x(t)对式(1)解;

r(x,u)表示一个积分强化项:T

r(x,u)=Q(x)+uRu              (4)其中Q(x)是一个正定矩阵, 并且只有在x=0时,Q(x)=0与控制策略相关联的成本函数看成:

其中u(i)是第i次迭代的控制策略,x(t)是t时刻下的状态;

3.2)策略改进:

u

根据已经求解了与控制策略i相关联的成本函数V L,执行策略更新步骤,因此,策略更新方法是:

最后得到:

4),引入神经网络算法并利用最小二乘的收敛性计算权值,过程如下:u

在最小二乘意义下,确定逼近成本函数VL的神经网络的参数;

定义:

T

Φ=<[φL(x(t+T))‑φL(x(t))],[φL(x(t+T))‑φL(x(t))]>         (9)其中L是神经网络结构的神经元参数,φL(x)是a‑c结构中的激活函数;

神经网络结构逼近下的价值函数:u(i) u(i)

VL (x)=(ωL )φL(x)                                  (10)调整价值函数逼近的参数WL,使目标最小化,得到:

5)停止策略更新

策略迭代(9)和(11)具有一致的收敛性,最终收敛于初始轨迹上的收敛解.当两个连续步骤中的价值函数误差小于给定的阈值,需要再次调整神经网络的参数;