知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13095918853 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13095918853

知嘟嘟经纪人

一种基于值迭代的Baxter机械臂智能优化控制方法

￥37100

专利号： 2021104644008

申请人：浙江工业大学

专利类型：发明专利

专利状态：已下证

专利领域：手动工具；轻便机动工具；手动器械的手柄；车间设备；机械手

更新日期：2023-12-11

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种基于值迭代的Baxter机械臂智能优化控制方法，其特征在于，所述方法考虑Baxter机械臂系统动力学方程如下：其中q, 分别表示机械臂位置，角速度，角加速度向量，Mj(q)表示机械臂惯性矩阵，表示机械臂科氏力矩向量,Gj(q)表示机械臂重力矩向量，τ表示机械臂控制力矩向量，τd表示外部环境的未知扰动力矩向量；

系统状态向量由下式表示：

Baxter机械臂的状态空间方程给出如下：其中，u＝τ为系统力矩输入，为状态向量，y为输出，矩阵Ac,Bc,hc定义如下：

其中，On为(n×n)的零矩阵，In为(n×n)的单位矩阵；

其中，0n为(n×1)的零矩阵，n(x1,x2)收集科式力矩、重力矩相关信息；对于Q‑learning值迭代最优控制问题：

有限域最优控制问题为：

选取Q＝1，R＝1，(A,B)能控，控制器的求解由贝尔曼最优原理确认，由u＝‑Kx，其中K＝‑1 T

R BH，且H满足代数黎卡提方程：T ‑1 T

AH+HA‑HBR BH+Q＝0 (8)；

所述智能优化控制方法包括以下步骤：步骤1)对系统进行初始化处理，步骤如下：

1.1)选取基函数：对连续时间LQR，其值函数在状态下是二次的，因此，n L

选择(9)式中的actor神经网络的基函数 R →R作为状态分量的二次多项式向量，该向量状态个数为n，则该基函数含有n(n+1)/2个分量，同时，权重向量W由矩阵H中的元素组成；

1.2)初始化系统：选择初始状态x0，计算基函数初始值，确定初始策略K0；

步骤2)对系统进行采样，并进行最小二乘法的计算，求得最优值函数,即策略评估过T T T

程；为了得到在策略Ki下每一步的Q函数，使用参数矩阵Hi计算，记z＝[x u ]，上述公式变为：

其中为Kronecker内积二次多项式基向量，元素为{zi(t)zj(t)}i＝1,n；j＝i,n，为向量值矩阵函数，作用于n×n矩阵，通过将对称矩阵的元素叠加成一个向量，非对角元素求和为Hij+Hji，从而得到列向量；

在每个迭代步骤中，在使用相同的控制策略Ki收集足够数量的位置和角速度轨迹点后，用最小二乘法求解Q函数参数从而得到Hi+1，在最小平方意义下，通过最小化目标函数之间的误差来找到参数向量H的最小值，在状态空间中N>N(N+1)个点Zi求值，得到最小二乘解为:

其中，

测量时间t和t+T离散时刻的状态，以及在采样时间间隔内观察到的奖励：Hi+1＝f(hi+1) (15)步骤3)根据得到的最优值函数，通过贪心算法更新最优参数：当最小二乘法收敛时，策略不再更新，得到最优策略，连续时间ADP算法由(14)和(6)之间的迭代组成，然而，使用(15)更新控制策略不需要包含动力学知识的系统矩阵，这使得算法在无模型的情况下实现。