欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2021103599522
申请人: 浙江工业大学
专利类型:发明专利
专利状态:已下证
专利领域: 控制;调节
更新日期:2023-08-24
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.基于强化学习的无超调PID控制器参数整定方法,具体步骤如下:步骤1,建立深度强化模型;

构建深度强化学习智能体,初始化动作网络和评价网络,分别用于选取PID控制器的参数以及评价当前状态下的动作选取。由于动作网络和评价网络的参数更新相互依赖,会造成不易收敛的结果。因此为每个神经网络都设置一个目标网络,对应的目标网络和当前的网络结构相同。动作网络和评价网络的结构相似,均由若干层全连接层组成,隐藏层的激活函数均为Relu函数。两个网络区别在于动作网络的最后一层的激活函数为Sigmoid函数,而评价网络的最后一层没有激活函数。初始化经验池D,用于存放每一次的状态转移元组。

步骤2,构建并存储状态转移元组;

智能体通过观测,或传感器得到当前状态的数据,与设定的目标值进行比较得到误差值δ,把其作为当前状态st输入到动作网络中。动作网络会根据当前状态st计算得到初始动作at′:

at′=μ(st|θ)                       (1)其中μ为动作网络函数,at为动作网络的输出结果。

为了能够尽可能地探索动作空间,在原有的动作基础上,添加高斯噪声信号其中at为动作网络输出的最终动作。由于动作网络的输出维度是3,所以at为一组三维的向量,即PID控制器的最终参数kp,ki,kd,并用下述公式计算控制量:其中u(t)为PID控制器输出的控制量。被控对象执行控制量所对应的动作,当前状态发生转移,得到改变后的状态st+1并计算奖励值rt。

具体奖励公式设计如下:

其中e表示自然常数。为了能够在避免超调的情况下能够尽量地兼顾调节时间。将奖励值设置为三个区间:当误差小于所允许的范围ε时的奖励值最大;当误差大于所允许的范围ε但没有发生超调时的奖励值次之;而误差大于所允许的范围ε且发生了超调时的奖励值最小。

当前状态st,动作at,转移后状态st+1,奖励值rt,四个元素组成了状态转移元组T。每一次被控对象执行动作时都会进行一次状态转移,并将状态转移元组T存入经验池D内。当经验池D的容量达到上限后,每存入一个新的状态转移元组,便会剔除一个原有的状态转移元组。

步骤3,抽取状态转移元组来训练神经网络;

智能体抽取一定量的状态转移元组,用于训练动作网络和评价网络。根据状态转移元组中的转移后状态st+1以及动作at,可以得到下一状态预测Q值,计算目标值函数yi:yi=ri+γQ′(si+1,μ′(si+1|θ)|w)                     (5)其中Q′为目标评价网络函数,其结构与评价网络Q结构一致;μ′为目标动作网络函数,其结构与动作网络结构一致。目标网络函数的意义在于固定目标值函数,加快收敛速度。

对目标值函数yi和当前评价网络使用均方差损失函数进行更新:式(6)中N表示训练所抽取的样本数量,Q(si,ai)表示评价网络的输出值,通过神经网络的反向传播来更新当前评价网络的所有参数。由于动作网络输出的是动作st,没有参数更新的梯度方向,所以根据评价网络的Q值提供梯度信息进行训练,优化函数如下:同样采用通过神经网络的反向传播来更新当前动作网络的所有参数。

步骤4,更新目标网络的参数;

在步骤3中,下一状态预测Q值是通过目标神经网络获得。而目标网络需要进行更新,以确保目标值函数yi的正确性。通过下述公式,来对目标网络进行更新:τ是更新系数,w是当前评价网络的参数,w′是目标评价网络的参数,θ是当前动作网络的参数,θ′是目标动作网络的参数。通过网络参数的缓慢滑动减少目标值的波动,增强了训练过程的稳定性。

步骤5,智能体通过动作网络生成PID控制器参数;

不断重复步骤2至步骤4,神经网络参数不断迭代直至收敛。将网络权重文件进行保存。

智能体通过动作网络函数可以根据不同的误差值状态,输出相应的一组PID控制器的参数,最终使得被控对象的状态值在无超调的基础上以较快的速度达到设定值。由于智能体针对不同的控制任务,根据奖励值rt优化策略,即动作网络的参数,从而得到最大的奖励值。因此本发明面对不同的控制环境,均可适用,具有较好的泛化能力。