1.一种基于数据驱动的压电陶瓷驱动器控制方法,其特征在于,包括以下步骤:
1)对压电陶瓷驱动器的性能指标函数进行离散;
2)引入Q函数并设计执行‑评价网络;
3)采集离线数据集SM与在线数据si,更新并计算评价网络系数
4)基于离线数据集SM与在线数据si,更新并计算执行网络系数
5)给定允许误差ε,若 满足误差要求,则输出 和 否则返回3),继续更新系数,直至满足误差要求为止;
所述步骤1)对压电陶瓷驱动器的性能指标函数进行离散具体如下:压电陶瓷驱动器的性能指标函数为:其中,x为实际输出位移,y为期望位移,u为控制策略,A和B为权矩阵;
离散后的性能指标函数为:其中, T为时间间隔:T=tk+1‑tk,tk, k=0,1,2,...为时间节点;xl=x(tl),ul=u(xl),且P(xl,ul)=(xl‑y)A(xl‑y)+ulBul。
2.根据权利要求1所述的一种基于数据驱动的压电陶瓷驱动器控制方法,其特征在于,所述步骤2)引入Q函数并设计执行‑评价网络的具体过程如下:
2‑1)定义Q函数:
其中a为当前位移的输入电压,且Qu(xk,u)=J(xk);
2‑2)估计Q函数:
(i) (i) (i)
Q (xk,a)=P(xk,a)+Q (xk+1,u );
其中i为更新次数;
2‑3)更新控制策略u:(i)
2‑4)设计执行‑评价神经网络,用执行网络逼近控制策略u (x);用评价网络逼近Q函(i)数Q (x,a);取两组线性无关的基函数: 其j j
中fj(x)=x,ψj(x,a)=(x+a) ;
该神经网络的输出为:
其中 和 分别为执行网络和评价网络的权重系数的近似估计; 和 分别为执行网络和评价网络的激活函数向量。
3.根据权利要求1所述的一种基于数据驱动的压电陶瓷驱动器控制方法,其特征在于,所述步骤3)的具体过程如下:为离线数据,其中 为当前位移x在通过压电陶瓷驱动器输入电压a后得到的新的位移;离线数据集 M为离线数据的数量;
定义Q函数的残差为:
利用Q函数的残差与ΨL(x,a)做内积为零,即: 其中D为由数组(xl,al),l=1,2,…,M构成的集合,且内积定义为:
则可得:
,
其中根据蒙特卡洛积分方法,令:ID=∫Dd(x,a);
基于离线数据集SM计算
其中
接着收集在线数据si=(xi‑1,ui‑1,xi),其中xi‑1与xi为i‑1与i时刻的在线状态,ui‑1为i‑
1时刻的控制策略;
然后将在线数据si加入到离线数据集SM作为新的离线数据集SM+si,并用于计算其中ξi=ξ0+ΨL(xi‑1,ui‑1)P(xi‑1,ui‑1)。
4.根据权利要求1所述的一种基于数据驱动的压电陶瓷驱动器控制方法,其特征在于,所述步骤4)的具体过程如下:定义控制策略u的残差为:利用控制策略u的残差与ΦL(x)做内积为零,即:其中X为xl,l=1,2,…,M和xi构成的集合,且内积定义为:
则可得:
其中根据蒙
特卡洛积分方法,令:Ix=∫xdx;
基于离线数据集SM与在线数据si,计算其中
且