1.一种基于数据驱动的压电陶瓷驱动器控制方法,其特征在于,包括以下步骤:
1)对压电陶瓷驱动器的性能指标函数进行离散;
2)引入Q函数并设计执行-评价网络;
3)采集离线数据集SM与在线数据si,更新并计算评价网络系数
4)基于离线数据集SM与在线数据si,更新并计算执行网络系数
5)给定允许误差ε,若 满足误差要求,则输出 和 否则返回3),继续更新系数,直至满足误差要求为止。
2.根据权利要求1所述的一种基于数据驱动的压电陶瓷驱动器控制方法,其特征在于,所述步骤1)对压电陶瓷驱动器的性能指标函数进行离散具体如下:压电陶瓷驱动器的性能指标函数为:其中,x为实际输出位移,y为期望位移,u为控制策略,A和B为权矩阵;
离散后的性能指标函数为:
其中, T为时间间隔:T=tk+1-tk,tk(k=0,1,2,...)为时间节点;xl=x(tl),ul=u(xl),且P(xl,ul)=(xl-y)A(xl-y)+ulBul。
3.根据权利要求1所述的一种基于数据驱动的压电陶瓷驱动器控制方法,其特征在于,所述步骤2)引入Q函数并设计执行-评价网络的具体过程如下:
2-1)定义Q函数:
其中a为当前位移的输入电压,且Qu(xk,u)=J(xk);
2-2)估计Q函数:
Q(i)(xk,a)=P(xk,a)+Q(i)(xk+1,u(i));
其中i为更新次数;
2-3)更新控制策略u:
2-4)设计执行-评价神经网络,用执行网络逼近控制策略u(i)(x);用评价网络逼近Q函数Q(i)(x,a);取两组线性无关的基函数: 其中fj(x)=xj,ψj(x,a)=(x+a)j;
该神经网络的输出为:
其中 和 分别为执行网络和评价网络的权重系数的近似估计; 和 分别为执行网络和评价网络的激活函数向量。
4.根据权利要求1所述的一种基于数据驱动的压电陶瓷驱动器控制方法,其特征在于,所述步骤3)的具体过程如下:为离线数据,其中 为当前位移x在通过压电陶瓷驱动器输入电压a后得到的新的位移;离线数据集 M为离线数据的数量;
定义Q函数的残差为:
利用Q函数的残差与ΨL(x,a)做内积为零,即: 其中D为由数组(xl,al),l=1,2,…,M构成的集合,且内积定义为:
则可得:
其中根据蒙特卡洛积分方法,令:ID=∫Dd(x,a);
基于离线数据集SM计算
其中
接着收集在线数据si=(xi-1,ui-1,xi),其中xi-1与xi为i-1与i时刻的在线状态,ui-1为i-
1时刻的控制策略;
然后将在线数据si加入到离线数据集SM作为新的离线数据集SM+si,并用于计算其中ξi=ξ0+ΨL(xi-1,ui-1)P(xi-1,ui-1)。
5.根据权利要求1所述的一种基于数据驱动的压电陶瓷驱动器控制方法,其特征在于,所述步骤4)的具体过程如下:定义控制策略u的残差为:
利用控制策略u的残差与ΦL(x)做内积为零,即:其中X为xl,l=1,2,…,M和xi构成的集合,且内积定义为:
则可得:
其中根据蒙
特卡洛积分方法,令:Ix=∫xdx;
基于离线数据集SM与在线数据si,计算其中
且