知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13095918853 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13095918853

知嘟嘟经纪人

基于近似模型多步优化的清洁机器人最优路径规划方法

￥35200

专利号： 2018103854717

申请人：常熟理工学院

专利类型：发明专利

专利状态：已下证

专利领域：控制；调节

更新日期：2024-02-26

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种基于近似模型多步优化的清洁机器人最优路径规划方法，其特征在于，包括一下步骤：

步骤1)、初始化模型，设置环境的状态空间X和动作空间U；

步骤2)、初始化超参数，设置折扣率γ，衰减因子λ，情节数，高斯函数的探索方差，每个情节所包含的最大时间步，值函数的学习率，策略的学习率，模型的学习率，规划的次数；

步骤3)、初始化环境，设置机器人的当前状态x和边界位置，以及环境中所有的障碍物和垃圾位置；

* *

步骤4)、选择探索策略：选择高斯函数N(u ,σ)作为动作选择策略，即以当前最优动作u作为高斯函数的均值，以探索项σ作为高斯函数的方差，选择当前状态下清洁机器人执行的动作u；

步骤5)、获取当前样本：在当前状态x下，执行步骤(4)中确定的动作u，得到清洁机器人的下一个状态x'，立即奖赏r；

步骤6)、采用当前样本更新模型：更新近似模型中的状态迁移函数和奖赏函数参数向量；

步骤7)、更新值函数：更新值函数的参数向量；

步骤8)、更新策略：更新策略的参数向量；

步骤9)、更新采样轨迹：将当前样本(x,u,x',r)加入当前采样轨迹中(x0,u0,x0',r0),(x1,u1,x1',r1),...,(x,u,x',r)，其中(x0,u0,x0',r0)表示时间步为0对应的样本，x0表示时间步为0时的状态，u0表示时间步为0时的动作，x0'表示状态x0执行动作u0后得到的下一个状态，r0表示状态x0执行动作u0后得到的立即奖赏，(x1,u1,x1',r1)表示时间步为1对应的样本，x1表示时间步为1时的状态，u1表示时间步为1时的动作，x1'表示状态x1执行动作u1后得到的下一个状态，r1表示状态x1执行动作u1后得到的立即奖赏；

步骤10)、更新当前状态：x＝x'；

步骤11)、判断当前情节是否结束：如果结束，转入步骤12)，否则转入步骤4)；

步骤12)、利用当前采样路径更新轨迹池：将当前采样轨迹(x0,u0,x0',r0),(x1,u1,x1',r1),...,(xn,un,xn',rn)加入到轨迹池D中，(xn,un,xn',rn)表示时间步为n对应的样本，xn表示时间步为n时的状态，un表示时间步为n时的动作，xn'表示状态xn执行动作un后得到的下一个状态，rn表示状态xn执行动作un后得到的立即奖赏；

步骤13)、利用重构采样轨迹更新轨迹池：利用当前采样轨迹构建模拟轨迹(x0,u0,x0,p',r0,p),(xo,p,u1,x1,p',r1,p),...,(xn-1,p,un,xn,p',rn,p)，并重构该轨迹，其中(x0,u0,x0,p',r0,p)表示时间步为0对应的模拟样本，x0,p'表示状态x0执行动作u0后根据模型得到的下一个状态，r0,p表示状态x0执行动作u0后得到的立即奖赏，(xo,p,u1,x1,p',r1,p)表示时间步为1对应的模拟样本，x0,p表示时间步为1对应的模拟状态，x1,p'表示状态x0,p执行动作u1后根据模型得到的下一个状态，r1,p表示状态x0,p执行动作u1后得到的立即奖赏，(xn-1,p,un,xn,p',rn,p)表示时间步为n对应的模拟样本，xn-1,p表示时间步为n对应的模拟状态，xn,p'表示状态xn-1,p执行动作un后根据模型得到的下一个状态，rn,p表示状态xn-1,p执行动作un后得到的立即奖赏,将重构的轨迹(x0,p',u1,x1,r1),(x1,p',u1,x2,r2),...,(xn-1,p',un,xn,rn)加入到轨迹池D中；

步骤14)、采用轨迹池中所有轨迹来更新模型；

步骤15)、采用模型进行规划；

步骤16)、判断是否达到最大情节数：如果达到，转入步骤17)，否则转入步骤3)继续执行；

步骤17)、根据学习到的最优策略来获取清洁机器人规划的最优路径。

2.根据权利要求1所述的基于近似模型多步优化的清洁机器人最优路径规划方法，其特征在于，步骤(6)中的状态迁移函数和奖赏函数的近似公式为xt+1＝φT(xt,ut)θt和rt+1＝φT(xt,ut)υt，其中，xt表示时间步为t时的状态，ut表示时间步为t时的动作,φT表示状态动作的特征函数的转置,θ为状态迁移函数的参数向量，υ为奖赏函数的参数向量，采用单步的预测误差作为梯度信号，得到参数向量的更新公式为：和α是模型即状态迁移函数和奖赏函数的学习率，为根据模

型的状态迁移函数得到的下一状态估计值，为根据模型的奖赏函数得到的奖赏估计值。

3.根据权利要求1所述的基于近似模型多步优化的清洁机器人最优路径规划方法，其特征在于，步骤(7)中的值函数的近似公式为：采用梯度下降法进行更新，其参数向量为：表示状态x对应的特征函数，α1为值函数的学习率。

4.根据权利要求1所述的基于近似模型多步优化的清洁机器人最优路径规划方法，其特征在于，步骤(8)中的策略的近似公式为：采用梯度下降法进行更新，其参数向量为：表示状态x对应的特征函数，α2为策略的学习率，V(xt)为状态xt对应的值函数。

5.根据权利要求1所述的基于近似模型多步优化的清洁机器人最优路径规划方法，其特征在于，步骤(13)中的模拟轨迹即获取真实轨迹的初始状态和实际发生的动作序列，并利用学习的模型xt+1＝φT(xt,ut)θt和rt+1＝φT(xt,ut)υt来对下一个状态和奖赏进行预测，递归进行预测后将生成整个模拟的采样序列，其中φ为采用高斯函数表示的状态动作对的特征，xt表示时间步为t时的状态，ut表示时间步为t时的动作,φT表示状态动作的特征函数的转置,θt为模型中状态迁移函数的参数向量，υt表示模型中奖赏函数的参数向量。

6.根据权利要求1所述的基于近似模型多步优化的清洁机器人最优路径规划方法，其特征在于，步骤(14)中基于轨迹池的模型更新方式为：对于轨迹池中的所有轨迹，以及轨迹中的每个样本，采用单步的预测误差作为梯度信号，得到参数向量的更新公式为：和 xt表示时间步t对应的状态，

ut表示时间步为t时的动作，φT表示状态动作的特征函数的转置，α是模型即状态迁移函数和奖赏函数的学习率，xt+1为下一状态的真实值，为根据模型的状态迁移函数得到的下一状态估计值；rt+1表示立即奖赏的真实值，为根据模型的奖赏函数得到的奖赏估计值。

7.根据权利要求1所述的基于近似模型多步优化的清洁机器人最优路径规划方法，其特征在于，步骤(15)是在一定的规划次数下，迭代地利用模型xt+1＝φT(xt,ut)θt和rt+1＝φT(xt,ut)υt生成下一个状态和奖赏，并利用下一个状态和奖赏来更新值函数参数向量和策略参数向量和ζt+1＝ζt+α2(r+γV(xt+1)-V(xt))(u-u*)T(xt)，其中，为高斯函数表示的状态特征，xt+1为下一状态的真实值，φT表示状态动作的特征函数的转置，表示状态x对应的特征函数，xt表示时间步t对应的状态，ut表示时间步为t时的动作，θt为模型中状态迁移函数的参数向量，V(xt)状态xt对应的值函数，υt表示模型中奖赏函数的参数向量, 表示状态xt的特征，α1为值函数的学习率，α2为策略的学习率，rt+1＝φT(xt,ut)υt表示立即奖赏的估计表达式。