1.一种欠驱动吊车系统的控制方法,其特征在于,所述控制方法包括如下步骤:利用扰动观测器对吊车系统进行观测,得到系统状态和总扰动;
利用强化学习控制器对所述系统状态进行处理,得到虚拟控制律;
根据所述虚拟控制律和所述总扰动计算实际控制律;
利用所述实际控制律对所述吊车系统进行控制。
2.根据权利要求1所述的控制方法,其特征在于,所述控制方法还包括建立扰动观测器,具体包括:
建立所述吊车系统的数学模型;
选取所述吊车系统的等效被控变量,将所述数学模型转化为等效模型;
对所述吊车系统的状态进行扩张,将所述等效模型转化为扰动模型;
根据所述扰动模型建立扰动观测器。
3.根据权利要求2所述的控制方法,其特征在于,所述吊车系统的数学模型为:T
其中,q=[x,θ]为状态矢量,x为所述吊车系统中的导轨车位置,θ为所述吊车系统中负载的摆动角度;
Moc(q)为惯性矩阵; 为科里奥利力矩阵;G(q)为重力矢量;U为增广控制矢量。
4.根据权利要求1所述的控制方法,其特征在于,基于深度确定性策略梯度算法设计所述强化学习控制器。
5.根据权利要求4所述的控制方法,其特征在于,所述利用强化学习控制器对所述系统状态进行处理,得到虚拟控制律具体包括:将所述吊车系统的预设控制目标与所述系统状态进行做差,得到第一差值;
以所述第一差值作为输入,利用所述强化学习控制器计算虚拟控制律。
6.根据权利要求1所述的控制方法,其特征在于,所述根据所述虚拟控制律和所述总扰动计算实际控制律具体包括:
将所述虚拟控制律与所述总扰动进行做差,得到第二差值;
计算所述第二差值与预设系数之间的比值,得到实际控制律。
7.根据权利要求5所述的控制方法,其特征在于,所述控制方法还包括对所述强化学习控制器进行训练,所述强化学习控制器包括online动作网络,online评价网络,目标动作网络和目标评价网络,训练过程具体包括:利用所述扰动观测器对所述吊车系统进行观测,得到训练系统状态和训练总扰动;将所述吊车系统的预设控制目标与所述训练系统状态进行做差,得到训练状态;
以所述训练状态作为输入,利用所述online动作网络计算训练虚拟控制律;
根据所述训练虚拟控制律和所述训练总扰动,得到训练实际控制律;利用所述训练实际控制律对所述吊车系统进行控制,得到奖励值和下一时刻的训练状态;
根据所述训练状态、所述训练虚拟控制律、所述奖励值和所述下一时刻的训练状态,对所述online评价网络进行更新,得到更新后的online评价网络;
根据所述训练状态、所述训练虚拟控制律和所述更新后的online评价网络对所述online动作网络进行更新,得到更新后的online动作网络;
根据所述更新后的online评价网络对所述目标评价网络进行更新,得到更新后的目标评价网络;
根据所述更新后的online动作网络对所述目标动作网络进行更新,得到更新后的目标动作网络;
以所述下一时刻的训练状态作为下一轮的训练状态,分别以所述更新后的online评价网络、所述更新后的online动作网络、所述更新后的目标评价网络和所述更新后的目标动作网络作为下一轮的online评价网络、online动作网络、目标评价网络和目标动作网络,返回“以所述训练状态作为输入,利用所述online动作网络计算训练虚拟控制律”的步骤进行迭代,直至所述深度确定性策略梯度算法收敛,得到强化学习控制器。
8.根据权利要求1所述的控制方法,其特征在于,所述控制方法还包括对所述扰动观测器进行稳定性分析,具体包括:
分别计算滑模面与所述扰动观测器对总扰动的观测误差的微分;
根据所述滑模面的微分和所述观测误差的微分选取第一李亚普诺夫函数;
对所述第一李亚普诺夫函数进行求解,得到第一求解结果;
根据所述第一求解结果确定所述滑模面的收敛性,得到第一收敛性判断结果;
根据所述第一收敛性判断结果选取第二李亚普诺夫函数;
对所述第二李亚普诺夫函数进行求解,得到第二求解结果;
根据所述第二求解结果确定所述扰动观测器对导轨车位置的观测误差的收敛性,得到第二收敛性判断结果。
9.一种欠驱动吊车系统的控制系统,其特征在于,所述控制系统包括:观测模块,用于利用扰动观测器对吊车系统进行观测,得到系统状态和总扰动;
处理模块,用于利用强化学习控制器对所述系统状态进行处理,得到虚拟控制律;
计算模块,用于根据所述虚拟控制律和所述总扰动计算实际控制律;
控制模块,用于利用所述实际控制律对所述吊车系统进行控制。
10.根据权利要求9所述的控制系统,其特征在于,所述控制系统还包括建立模块,具体包括:
建立单元,用于建立所述吊车系统的数学模型;
等效单元,用于选取所述吊车系统的等效被控变量,将所述数学模型转化为等效模型;
扩张单元,用于对所述吊车系统的状态进行扩张,将所述等效模型转化为扰动模型;
获取单元,用于根据所述扰动模型建立扰动观测器。