欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2018107966459
申请人: 杭州电子科技大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于深度强化学习的机器自主决策方法,其特征在于,该方法具体包括以下步骤:步骤一:构建训练样本

构建训练样本e(s,a,r,s′,d),表示主体与环境的一次交互,其中s为这次交互中环境的状态,a为代理在这个状态下执行的动作,r为代理在状态s下做出的动作a得到的奖励反馈,s′为环境受到这个动作后发生变化产生的新状态,d指示新的状态是否为终止状态;

步骤二:构建强化学习网络

根椐训练样本,构建行动者网络,输入为环境状态,输出为要执行的动作:a=μ(s);定义行动网络用来预测动作价值函数值为:y=r+γQ(s′,μ(s'));其中,动作价值函数为:Q(s,a)=r+(1-d)γ·Q(s′,a′);

构建评判家网络,输入为状态和动作,输出为输入动作的动作价值Q(s,a),其中s为状态值,a为执行的动作;

步骤三:网络训练

在评判者网络中计算得到动作价值函数Q在当前状态下对于动作a的梯度:在行动者网络中得到动作a对于行动者网络参数θμ的梯度:将上面两个梯度相乘得到的便是动作价值Q对于行动者网络参数的梯度:在训练过程中,引入噪声N进行探索;实际训练代理执行的动作为行动者网络给出的动作与探索噪声之和μ(s)+N;

详细训练过程如下:

将动者评判家网络的权重随机初始化为θQ,θμ使用上一步的权重初始化目标行动者与评判家网络μ′,Q′对于每一个情节:

为动作探索初始化随机过程噪声N重置环境,获得初始状态s1

对于一个情节中的每一步:

根据当前的策略网络和探索噪声,获得动作at=μ(st|θμ)+Nt执行动作at,获得奖励rt和新的状态st+1将样本(st,at,rt,st+1)存储到回放缓冲区R中从回放缓冲区R中采样获得小批量样本对于采样获得的每个样本,计算yi=r+γQ′(st+1,μ′(st+1))通过最小化损失 训练评判家

使用样本中的数据计算以下梯度并按该梯度更新行动者网络更新行动者与评判家的目标网络θQ′←τθQ+(1-τ)θQ′μ′ μ μ′

θ ←τθ+(1-τ)θ 。