1.一种伺服系统的跟踪控制方法,其特征在于,所述方法包括:建立伺服系统的数学模型;
对所述伺服系统的输入力矩和实际输出轨迹进行采集,基于所述实际输出轨迹与理想输出轨迹确定所述伺服系统的跟踪误差;其中,所述理想输出轨迹基于所述伺服系统的数学模型获得;
根据所述跟踪误差与所述伺服系统的瞬态控制建立所述伺服系统的跟踪目标函数,并基于预置单层评价神经网络重构所述跟踪目标函数,以生成与所述跟踪目标函数相对应的最优贝尔曼方程;
根据所述最优贝尔曼方程,确定单层评价神经网络模型权值以及所述伺服系统的最优瞬态控制;
根据预置所述权值的估计误差设计所述单层评价神经网络的自适应律以实现所述单层评价神经网络权值的在线更新,并根据更新后的单层评价神经网络权值更新所述最优瞬态控制,得到所述伺服系统的最优跟踪控制;
其中,根据所述跟踪误差与所述伺服系统的瞬态控制建立伺服系统的跟踪目标函数,具体包括:建立所述伺服系统的性能指标函数;其中,所述性能指标函数为:,其中, 表示所述伺服系统的效用函数,R为性能指标函数的权值矩阵, 为所述跟踪误差, 为所述伺服系统的瞬态控制;
对所述性能指标函数求极小值以获得所述伺服系统的最优性能指标函数并将其作为所述伺服系统的跟踪目标函数;其中,所述最优性能指标函数为:;
其中,根据所述跟踪误差与所述伺服系统的瞬态控制建立伺服系统的跟踪目标函数之后,所述方法还包括:基于所述跟踪目标函数与预设最优准则确定所述伺服系统的最优瞬态控制公式为:;其中, 表示系统非线性动态, 为
所述伺服系统的转动惯量, 为伺服系统的自定义系数, 为所述伺服系统的力矩常数, 为所述伺服系统的定子电阻;
所述基于预置单层评价神经网络重构所述跟踪目标函数,以生成与所述跟踪目标函数相对应的最优贝尔曼方程,具体包括:根据预置激励函数、所述预置单层评价神经网络的权值与所述神经网络估计误差,重构所述跟踪目标函数生成单层评价神经网络;其中,所述单层评价神经网络为:; 为激励函数, 为神经网络权值, 为神经网络估计误差;
定义所述伺服系统所对应的贝尔曼方程;其中,所述贝尔曼方程为:;其中, 表
示效用函数;
将所述单层评价神经网络重构所述贝尔曼方程,以获得所述跟踪目标函数相对应的最优贝尔曼方程;其中,所述最优贝尔曼方程为:, 是积分强化
学习项, ,误差 ;
根据所述最优贝尔曼方程,确定单层评价神经网络模型权值以及所述伺服系统的最优瞬态控制,具体包括:根据所述最优贝尔曼方程与所述单层评价神经网络的对应关系,确定所述单层评价神经模型网络权值;
根据所述最优贝尔曼方程对所述性能指标函数进行更新优化,以获得更新后的最优性能指标函数,从而将所述更新后的最优性能指标函数代入所述跟踪目标函数,以获得所述伺服系统的最优瞬态控制。
2.根据权利要求1所述的一种伺服系统的跟踪控制方法,其特征在于,所述建立伺服系统的数学模型,具体包括:定义所述伺服系统的状态变量为:
;
其中, 为所述伺服系统的转角, 为所述伺服系统的角速度;
根据所述伺服系统的状态变量确定所述伺服系统的状态空间方程,以将所述状态空间方程作为所述伺服系统的数学模型;其中,所述状态空间方程为:;
其中, 为所述伺服系统的转动惯量,为所述伺服系统的系统控制, 为伺服系统的自定义系数, 表示伺服系统状态变量的自定义调整系数, 表示伺服系统外部干扰, 为所述伺服系统的力矩常数, 为所述伺服系统的定子电阻,, 为极点数, 转子磁链值。
3.根据权利要求2所述的一种伺服系统的跟踪控制方法,其特征在于,所述建立伺服系统的数学模型之后,所述方法还包括:根据所述伺服系统的动态相关函数对所述状态空间方程进行处理,以获得与所述状态空间方程相对应的简化状态空间方程;
其中,所述根据所述伺服系统的动态相关函数对所述状态空间方程进行处理,以获得与所述状态空间方程相对应的简化状态空间方程,具体包括:根据所述状态空间方程确定所述伺服系统的非线性动态;
基于所述伺服系统的非线性动态对所述状态空间方程进行简化处理,以获得与所述状态空间方程相对应的简化状态空间方程;其中,所述简化状态空间方程为:;其中, 与 表
示系统非线性动态。
4.根据权利要求3所述的一种伺服系统的跟踪控制方法,其特征在于,所述基于所述实际输出轨迹与所述理想输出轨迹确定所述伺服系统的跟踪误差,具体包括:基于所述理想输出轨迹与所述实际输出轨迹的差值,确定所述伺服系统的跟踪误差;
其中,所述跟踪误差为:
;其中, 为所述跟踪误差, 为所
述理想输出轨迹, 为所述实际输出轨迹;
其中,确定所述伺服系统的跟踪误差之后,所述方法还包括:将所述伺服系统的系统控制分解为稳态控制与瞬态控制,其中,所述稳态控制为:;
表示反馈控制增益, 为 的伪逆;
根据所述伺服系统的系统控制与所述跟踪误差,建立所述伺服系统的误差动态为:, 为所述伺服系统的瞬态控制。
5.根据权利要求1所述的一种伺服系统的跟踪控制方法,其特征在于,所述根据预置所述权值的估计误差确定所述单层评价神经网络的自适应律,具体包括:构造辅助变量;其中,所述辅助变量包括:第一辅助变量与第二辅助变量;
基于所述辅助变量的预设参数获得所述辅助变量的解;
根据单层神经网络获得所述权值的估计,并根据所述第一辅助变量的解与所述第二辅助变量的解构造第三辅助变量;其中,所述第三辅助变量为:, 为第一辅助变量的解, 为第二辅助变量的解, 为所述权值的估计;
根据单层神经网络获得所述权值的估计,以基于所述权值的估计、所述第一辅助变量与第二辅助变量获得所述权值的估计误差,以将所述权值的估计误差作为所述单层评价神经网络的自适应律;其中,所述自适应律为:, 为自适应律, 为学习增益。
6.根据权利要求5所述的一种伺服系统的跟踪控制方法,其特征在于,所述根据单层神经网络获得所述权值的估计,并根据所述第一辅助变量的解与所述第二辅助变量的解构造第三辅助变量之后,所述方法还包括:计算所述第三辅助变量的最小特征值;其中,所述第三辅助变量为变量矩阵;
若确定所述最小特征值小于预设特征值,则在所述伺服系统的输入力矩中加入干扰,以更新所述跟踪目标函数;其中,所述预设特征值为零;
若确定所述最小特征值大于预设特征值,则基于所述第三辅助变量构建所述自适应律。
7.一种伺服系统的跟踪控制系统,其特征在于,所述系统包括:建立单元,用于建立伺服系统的数学模型;
数据采集单元,用于对所述伺服系统的输入力矩和实际输出轨迹进行采集,基于所述实际输出轨迹与理想输出轨迹确定所述伺服系统的跟踪误差;其中,所述理想输出轨迹基于所述伺服系统的数学模型获得;
方程建立单元,用于根据所述跟踪误差与所述伺服系统的瞬态控制建立所述伺服系统的跟踪目标函数,并基于预置单层评价神经网络重构所述跟踪目标函数,以生成与所述跟踪目标函数相对应的最优贝尔曼方程;
确定单元,用于根据所述最优贝尔曼方程,确定单层评价神经网络模型权值以及所述伺服系统的最优瞬态控制;
更新单元,用于根据预置所述权值的估计误差设计所述单层评价神经网络的自适应律以实现所述单层评价神经网络权值的在线更新,并根据更新后的单层评价神经网络权值更新所述最优瞬态控制,得到所述伺服系统的最优跟踪控制;
其中,根据所述跟踪误差与所述伺服系统的瞬态控制建立伺服系统的跟踪目标函数,具体包括:建立所述伺服系统的性能指标函数;其中,所述性能指标函数为:,其中, 表示所述伺服系统的效用函数,R为性能指标函数的权值矩阵, 为所述跟踪误差, 为所述伺服系统的瞬态控制;
对所述性能指标函数求极小值以获得所述伺服系统的最优性能指标函数并将其作为所述伺服系统的跟踪目标函数;其中,所述最优性能指标函数为:;
其中,根据所述跟踪误差与所述伺服系统的瞬态控制建立伺服系统的跟踪目标函数之后,还包括:基于所述跟踪目标函数与预设最优准则确定所述伺服系统的最优瞬态控制公式为:;其中, 表示系统非线性动态, 为
所述伺服系统的转动惯量, 为伺服系统的自定义系数, 为所述伺服系统的力矩常数, 为所述伺服系统的定子电阻;
所述基于预置单层评价神经网络重构所述跟踪目标函数,以生成与所述跟踪目标函数相对应的最优贝尔曼方程,具体包括:根据预置激励函数、所述预置单层评价神经网络的权值与所述神经网络估计误差,重构所述跟踪目标函数生成单层评价神经网络;其中,所述单层评价神经网络为:; 为激励函数, 为神经网络权值, 为神经网络估计误差;
定义所述伺服系统所对应的贝尔曼方程;其中,所述贝尔曼方程为:;其中, 表
示效用函数;
将所述单层评价神经网络重构所述贝尔曼方程,以获得所述跟踪目标函数相对应的最优贝尔曼方程;其中,所述最优贝尔曼方程为:, 是积分强化
学习项, ,误差 ;
根据所述最优贝尔曼方程,确定单层评价神经网络模型权值以及所述伺服系统的最优瞬态控制,具体包括:根据所述最优贝尔曼方程与所述单层评价神经网络的对应关系,确定所述单层评价神经模型网络权值;
根据所述最优贝尔曼方程对所述性能指标函数进行更新优化,以获得更新后的最优性能指标函数,从而将所述更新后的最优性能指标函数代入所述跟踪目标函数,以获得所述伺服系统的最优瞬态控制。