知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13095918853 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13095918853

知嘟嘟经纪人

基于正向运动学的机械臂深度确定性策略梯度训练方法

面议

专利号： 2022109956157

申请人：江苏科技大学

专利类型：发明专利

专利状态：已下证

专利领域：手动工具；轻便机动工具；手动器械的手柄；车间设备；机械手

更新日期：2025-02-08

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种基于正向运动学的机械臂深度确定性策略梯度训练方法，其特征在于，包括以下步骤：S1.搭建仿真环境中的机械臂训练环境，确定每回合训练步数T和训练回合数M；

S2.根据机械臂类型建立机械臂正向运动学模型：输入机械臂j个关节角度为(θ

S3.建立actor模块和critic模块；建立一个经验池，每次智能体与环境交互产生的经验称为一个transition(s，a，r，s′)并将此次transition存入经验池，其中，s为当前状态，a为当前动作，由机械臂j个关节角度表示a＝(θS4.达到训练步数T后从经验池中抽取经验更新actor和critic模块，进行动态规划：从经验池中抽取未完成任务的transitionS5.重复步骤S4，直到达到训练回合数M；

所述步骤S1包括以下步骤：

S11.使用开源仿真平台搭建实验环境，确定物理引擎，将用于完成任务的机械臂导入此仿真平台搭建的实验环境中；

S12.设定机械臂的控制任务；根据机械臂的控制任务设计奖惩函数R；每回合训练步数T是指每回合智能体与环境交互的次数；训练回合数M和训练步数T由实际训练效果决定；

S13.定义机械臂控制任务的动作空间和状态空间；动作空间A中动作a为机械臂的j个关节角度记为a＝(θ所述步骤S4包括以下步骤：

S41.智能体与环境交互达到每回合训练步数T后，从经验池中抽取经验更新actor与critic模块后，进行动态规划；

所述步骤S41包括以下步骤：

S41a.从经验池中抽取未完成任务的transitionS41b.向a

S41c.将a

S41d.将最大r

S41e.将transition

2.根据权利要求1所述基于正向运动学的机械臂深度确定性策略梯度训练方法，其特征在于，所述步骤S3包括以下步骤：S31.建立智能体的actor模块，将状态s输入actor模块，actor模块输出智能体的下一步动作a；

S32.建立智能体的critic模块，将状态s和动作a作为critic模块的输入，critic模块输出一个评价该次动作a的值Q(s,a)；

S33.当前actor网络和critic网络更新后，目标actor网络和critic网络才会开始更新。

3.根据权利要求2所述基于正向运动学的机械臂深度确定性策略梯度训练方法，其特征在于，所述步骤S4还包括以下步骤：S42.critic模块包含了两个结构完全相同的网络模型：当前critic网络Q(s,a|θS43.采用TD-error方式，对参数θ其中，i＝1,2…N，N为批量抽取经验的数目，Y求得损失函数L针对θ

μ的网络参数θ

其中，a＝μ(S

Q'和μ'采用软更新方式：

其中，τ为平衡因子；

S44.利用步骤S43的公式更新actor和critic模块，如果样本数量达到经验池的最大样本数量，则用最新的样本替换旧的样本。