1.一种基于Q学习算法的对角递归神经网络控制策略,其特征在于,包括如下步骤:S1:建立三层对角递归神经网络,网络结构与前馈网络类似,是由输入层、隐含层和输出层3部分组成,不同之处在于其隐含层的各神经元有自带递归环,其中各层神经元节点数分布为3-6-1,各层间初始权重Wij(0)、Wjk(0)在区间[-0.5,0.5]中随机产生,确定学习率η及权动量项因子ξ0;初始化Q学习的(s, a)所以参数,观察当前状态S(0),并令k=0;
S2:计算基于Q学习算法优化的DRNN控制误差e(k),Q学习的动作a(k)由动作概率分布从动作集合中选择,观察下一个状态S(k+1);
S3:计算对角递归神经网络输出层的输出uk(k),计算此时Q-DRNN控制输出u(k),即为无刷直流电机控制系统的控制输入;
S4:获得奖惩信号R(k),计算此状态下Q学习的Q值,计算贪婪动作;
S5:修正Q-DRNN的关键权重Wij(k)、Wjj(k)和Wjk(k);
k *
S6:更新动作概率分布,令 k=k+1,返回S2,直到Q收敛于最优值函数Q为止;
S7:将最终控制输出输入到无刷直流电机控制系统中实现最优控制。
2.如权利要求1所述的一种基于Q学习算法的对角递归神经网络控制策略,其特征在于,所述步骤S1:建立三层对角递归神经网络,还包括:采样得到输入转速Yd(k)和输出转速y(k),计算转速误差e(k)=Yd(k)-y(k),根据转速误差e(k),对e(k),e(k)-e(k-1),e(k)-2e(k-1)+e(k-2)进行归一化处理,作为Q-DRNN的输入x1,x2,x3。
3.如权利要求1所述的一种基于Q学习算法的对角递归神经网络控制策略,其特征在于,所述步骤S3中对角递归神经网络输出层的输出uk(k)按下式计算:uk(k)=Ok(k)=f2[Σ6j=1Wjk×f1(Σ3i=1Wij×xi+Wjj×Oj(k-1)-θj)-θk]其中,xi为网络的实际输入,Wij,Wjj,Wjk,θj,θk分别代表输入层和隐含层之间权重、隐含层自递归环权重、隐含层和输出层之间权重、第j隐含层神经元的偏置、第k输出层神经元的偏置,f1(x)、f2(x)是隐藏层和输出层的激活函数;
此时Q-DRNN控制输出u(k),即为无刷直流电机控制系统的控制输入:u(k)=K×uk(k)
其中,K为增益系数。
4.如权利要求1所述的一种基于Q学习算法的对角递归神经网络控制策略,其特征在于,所述步骤S4:获得奖惩信号R(k);
对于所有的Q学习,始终存在一个奖惩功能,这里引入的奖惩功能与系统的输入有关,由于系统误差e(k)的理想目标为零,优化过程中误差越小,说明学习方向是奖励方向,可以继续朝着这个方向调整;误差越大,说明学习方向就是惩罚方向,应该向相反的方向调整;
奖惩函数R(k)可以设计为系统误差e(k)实际值的积分与目标值误差的平方,即R(k)=-[∫|e(k)|dk-0]2此时进行Q值的迭代计算:
Q(sk,ak)=γmaxQ(sk+1,a)+R(sk+1,sk)式中γ为折扣因子,s为状态,a为动作;智能体接收外部环境中的输入状态sk,并通过内部推理机制输出相应的动作ak;在ak的作用下,外部环境变成一个新的状态sk+1;同时,它为agent生成即时奖惩信号rk+1;rk+1是对在外部环境状态sk下智能体动作ak的评价;如果行为策略获得正回报,从外部环境中得到奖励,智能体选择行动的倾向会增加,否则倾向会减少;Q(sk+1,a)为sk+1状态下的最大值R(sk+1,sk)为奖惩矩阵返还的数值;
Q学习算法在当前状态下总是选择具有最高 Q值的动作, 称为贪婪策略π*, 如下式:π*(k)=argmaxQk(s,a)。
5.如权利要求1所述的一种基于Q学习算法的对角递归神经网络控制策略,其特征在于,所述步骤S5中修正Q-DRNN的关键权重Wij(k)、Wjj(k)和Wjk(k),具体包括:定义Q-DRNN控制策略的性能指标为Jk,关键权重Wij(k)、Wjj(k)和Wjk(k)采用引入动量项的最速梯度下降法调整:Wxy(k+1)=Wxy(k)-η{[1-ξ(k)]∂Jk/∂Wxy(k)+ξ(k)∂Jk/∂Wxy(k)}式中xy可取ij、jj和jk,η(η>0)为学习速率,ξ(k)[0≤ξ(k)<1]为动量项因子;DRNN中引入动量项实质上相当于阻尼项,它减小了学习过程的振荡趋势,改善了收敛性;
在Q学习的过程中,本文把权值的动量项因子修正项△r作为动作集,Q-DRNN的输入项xi(i=1,2,3)作为状态集;动量项因子ξ的修正式为ξ(k)=ξ0△r, 0≤△r≤1
ξ(k)=ξ0(△r-⌊△r⌋), △r>1
△r=exp[e(k)]
当误差e(k)越趋近于0时,△r越趋近于1,ξ修正越小。
6.如权利要求1所述的一种基于Q学习算法的对角递归神经网络控制策略,其特征在于,所述步骤S6中更新动作概率分布:Psk+1(ag)=Psk(ag)+β[1-Psk(ag)]
Psk+1(ag)=Psk(a)(1-β), ∀a∈A, a≠agPs^k+1(a)=Ps^k(a)(1-β), ∀a∈A, ∀s^∈S, s^≠s式中β(0<β<1)值的大小代表动作搜索速度的快慢,可以看出当β的值越接近于1时说明现在的动作策略越接近贪婪策略;Psk(a)代表第k次迭代时状态s下选择动作a的概率;若探索和利用的迭代次数达到某一临界值,Qk收敛于最优值函数Q*;
令 k=k+1,返回S2重新计算以上步骤,直到Qk收敛于最优值函数Q*为止。
7.如权利要求1所述的一种基于Q学习算法的对角递归神经网络控制策略,其特征在于,所设计的Q学习算法优化型对角递归神经网络控制策略(Q-DRNN),通过DRNN隐含层中独有的递归环对输出变量进行迭代,并对其关键权重进行优化,以加快迭代速度;同时,引入改进的Q学习对DRNN的权动量项因子进行修正,使DRNN具有自学习和在线修正的能力,使得系统的抗干扰能力增强、鲁棒性增强,从而使无刷直流电机达到更好的控制效果。