欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2022109956157
申请人: 江苏科技大学
专利类型:发明专利
专利状态:已下证
专利领域: 手动工具;轻便机动工具;手动器械的手柄;车间设备;机械手
更新日期:2024-10-25
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于正向运动学的机械臂深度确定性策略梯度训练方法,其特征在于,包括以下步骤:S1.搭建仿真环境中的机械臂训练环境,确定每回合训练步数T和训练回合数M;

S2.根据机械臂类型建立机械臂正向运动学模型:输入机械臂j个关节角度为(θ

S3.建立actor模块和critic模块;建立一个经验池,每次智能体与环境交互产生的经验称为一个transition(s,a,r,s′)并将此次transition存入经验池,其中,s为当前状态,a为当前动作,由机械臂j个关节角度表示a=(θS4.达到训练步数T后从经验池中抽取经验更新actor和critic模块,进行动态规划:从经验池中抽取未完成任务的transitionS5.重复步骤S4,直到达到训练回合数M;

所述步骤S1包括以下步骤:

S11.使用开源仿真平台搭建实验环境,确定物理引擎,将用于完成任务的机械臂导入此仿真平台搭建的实验环境中;

S12.设定机械臂的控制任务;根据机械臂的控制任务设计奖惩函数R;每回合训练步数T是指每回合智能体与环境交互的次数;训练回合数M和训练步数T由实际训练效果决定;

S13.定义机械臂控制任务的动作空间和状态空间;动作空间A中动作a为机械臂的j个关节角度记为a=(θ所述步骤S4包括以下步骤:

S41.智能体与环境交互达到每回合训练步数T后,从经验池中抽取经验更新actor与critic模块后,进行动态规划;

所述步骤S41包括以下步骤:

S41a.从经验池中抽取未完成任务的transitionS41b.向a

S41c.将a

S41d.将最大r

S41e.将transition

2.根据权利要求1所述基于正向运动学的机械臂深度确定性策略梯度训练方法,其特征在于,所述步骤S3包括以下步骤:S31.建立智能体的actor模块,将状态s输入actor模块,actor模块输出智能体的下一步动作a;

S32.建立智能体的critic模块,将状态s和动作a作为critic模块的输入,critic模块输出一个评价该次动作a的值Q(s,a);

S33.当前actor网络和critic网络更新后,目标actor网络和critic网络才会开始更新。

3.根据权利要求2所述基于正向运动学的机械臂深度确定性策略梯度训练方法,其特征在于,所述步骤S4还包括以下步骤:S42.critic模块包含了两个结构完全相同的网络模型:当前critic网络Q(s,a|θS43.采用TD-error方式,对参数θ其中,i=1,2…N,N为批量抽取经验的数目,Y求得损失函数L针对θ

μ的网络参数θ

其中,a=μ(S

Q'和μ'采用软更新方式:

θ

θ

其中,τ为平衡因子;

S44.利用步骤S43的公式更新actor和critic模块,如果样本数量达到经验池的最大样本数量,则用最新的样本替换旧的样本。