1.一种基于正向运动学的机械臂深度确定性策略梯度训练方法,其特征在于,包括以下步骤:S1.搭建仿真环境中的机械臂训练环境,确定每回合训练步数T和训练回合数M;
S2.根据机械臂类型建立机械臂正向运动学模型:输入机械臂j个关节角度为(θ
S3.建立actor模块和critic模块;建立一个经验池,每次智能体与环境交互产生的经验称为一个transition(s,a,r,s′)并将此次transition存入经验池,其中,s为当前状态,a为当前动作,由机械臂j个关节角度表示a=(θS4.达到训练步数T后从经验池中抽取经验更新actor和critic模块,进行动态规划:从经验池中抽取未完成任务的transitionS5.重复步骤S4,直到达到训练回合数M;
所述步骤S1包括以下步骤:
S11.使用开源仿真平台搭建实验环境,确定物理引擎,将用于完成任务的机械臂导入此仿真平台搭建的实验环境中;
S12.设定机械臂的控制任务;根据机械臂的控制任务设计奖惩函数R;每回合训练步数T是指每回合智能体与环境交互的次数;训练回合数M和训练步数T由实际训练效果决定;
S13.定义机械臂控制任务的动作空间和状态空间;动作空间A中动作a为机械臂的j个关节角度记为a=(θ所述步骤S4包括以下步骤:
S41.智能体与环境交互达到每回合训练步数T后,从经验池中抽取经验更新actor与critic模块后,进行动态规划;
所述步骤S41包括以下步骤:
S41a.从经验池中抽取未完成任务的transitionS41b.向a
S41c.将a
S41d.将最大r
S41e.将transition
2.根据权利要求1所述基于正向运动学的机械臂深度确定性策略梯度训练方法,其特征在于,所述步骤S3包括以下步骤:S31.建立智能体的actor模块,将状态s输入actor模块,actor模块输出智能体的下一步动作a;
S32.建立智能体的critic模块,将状态s和动作a作为critic模块的输入,critic模块输出一个评价该次动作a的值Q(s,a);
S33.当前actor网络和critic网络更新后,目标actor网络和critic网络才会开始更新。
3.根据权利要求2所述基于正向运动学的机械臂深度确定性策略梯度训练方法,其特征在于,所述步骤S4还包括以下步骤:S42.critic模块包含了两个结构完全相同的网络模型:当前critic网络Q(s,a|θS43.采用TD-error方式,对参数θ其中,i=1,2…N,N为批量抽取经验的数目,Y求得损失函数L针对θ
μ的网络参数θ
其中,a=μ(S
Q'和μ'采用软更新方式:
θ
θ
其中,τ为平衡因子;
S44.利用步骤S43的公式更新actor和critic模块,如果样本数量达到经验池的最大样本数量,则用最新的样本替换旧的样本。