欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2018103854717
申请人: 常熟理工学院
专利类型:发明专利
专利状态:已下证
专利领域: 控制;调节
更新日期:2024-02-26
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于近似模型多步优化的清洁机器人最优路径规划方法,其特征在于,包括一下步骤:

步骤1)、初始化模型,设置环境的状态空间X和动作空间U;

步骤2)、初始化超参数,设置折扣率γ,衰减因子λ,情节数,高斯函数的探索方差,每个情节所包含的最大时间步,值函数的学习率,策略的学习率,模型的学习率,规划的次数;

步骤3)、初始化环境,设置机器人的当前状态x和边界位置,以及环境中所有的障碍物和垃圾位置;

* *

步骤4)、选择探索策略:选择高斯函数N(u ,σ)作为动作选择策略,即以当前最优动作u作为高斯函数的均值,以探索项σ作为高斯函数的方差,选择当前状态下清洁机器人执行的动作u;

步骤5)、获取当前样本:在当前状态x下,执行步骤(4)中确定的动作u,得到清洁机器人的下一个状态x',立即奖赏r;

步骤6)、采用当前样本更新模型:更新近似模型中的状态迁移函数和奖赏函数参数向量;

步骤7)、更新值函数:更新值函数的参数向量;

步骤8)、更新策略:更新策略的参数向量;

步骤9)、更新采样轨迹:将当前样本(x,u,x',r)加入当前采样轨迹中(x0,u0,x0',r0),(x1,u1,x1',r1),...,(x,u,x',r),其中(x0,u0,x0',r0)表示时间步为0对应的样本,x0表示时间步为0时的状态,u0表示时间步为0时的动作,x0'表示状态x0执行动作u0后得到的下一个状态,r0表示状态x0执行动作u0后得到的立即奖赏,(x1,u1,x1',r1)表示时间步为1对应的样本,x1表示时间步为1时的状态,u1表示时间步为1时的动作,x1'表示状态x1执行动作u1后得到的下一个状态,r1表示状态x1执行动作u1后得到的立即奖赏;

步骤10)、更新当前状态:x=x';

步骤11)、判断当前情节是否结束:如果结束,转入步骤12),否则转入步骤4);

步骤12)、利用当前采样路径更新轨迹池:将当前采样轨迹(x0,u0,x0',r0),(x1,u1,x1',r1),...,(xn,un,xn',rn)加入到轨迹池D中,(xn,un,xn',rn)表示时间步为n对应的样本,xn表示时间步为n时的状态,un表示时间步为n时的动作,xn'表示状态xn执行动作un后得到的下一个状态,rn表示状态xn执行动作un后得到的立即奖赏;

步骤13)、利用重构采样轨迹更新轨迹池:利用当前采样轨迹构建模拟轨迹(x0,u0,x0,p',r0,p),(xo,p,u1,x1,p',r1,p),...,(xn-1,p,un,xn,p',rn,p),并重构该轨迹,其中(x0,u0,x0,p',r0,p)表示时间步为0对应的模拟样本,x0,p'表示状态x0执行动作u0后根据模型得到的下一个状态,r0,p表示状态x0执行动作u0后得到的立即奖赏,(xo,p,u1,x1,p',r1,p)表示时间步为1对应的模拟样本,x0,p表示时间步为1对应的模拟状态,x1,p'表示状态x0,p执行动作u1后根据模型得到的下一个状态,r1,p表示状态x0,p执行动作u1后得到的立即奖赏,(xn-1,p,un,xn,p',rn,p)表示时间步为n对应的模拟样本,xn-1,p表示时间步为n对应的模拟状态,xn,p'表示状态xn-1,p执行动作un后根据模型得到的下一个状态,rn,p表示状态xn-1,p执行动作un后得到的立即奖赏,将重构的轨迹(x0,p',u1,x1,r1),(x1,p',u1,x2,r2),...,(xn-1,p',un,xn,rn)加入到轨迹池D中;

步骤14)、采用轨迹池中所有轨迹来更新模型;

步骤15)、采用模型进行规划;

步骤16)、判断是否达到最大情节数:如果达到,转入步骤17),否则转入步骤3)继续执行;

步骤17)、根据学习到的最优策略来获取清洁机器人规划的最优路径。

2.根据权利要求1所述的基于近似模型多步优化的清洁机器人最优路径规划方法,其特征在于,步骤(6)中的状态迁移函数和奖赏函数的近似公式为xt+1=φT(xt,ut)θt和rt+1=φT(xt,ut)υt,其中,xt表示时间步为t时的状态,ut表示时间步为t时的动作,φT表示状态动作的特征函数的转置,θ为状态迁移函数的参数向量,υ为奖赏函数的参数向量,采用单步的预测误差作为梯度信号,得到参数向量的更新公式为: 和α是模型即状态迁移函数和奖赏函数的学习率, 为根据模

型的状态迁移函数得到的下一状态估计值, 为根据模型的奖赏函数得到的奖赏估计值。

3.根据权利要求1所述的基于近似模型多步优化的清洁机器人最优路径规划方法,其特征在于,步骤(7)中的值函数的近似公式为: 采用梯度下降法进行更新,其参数向量为: 表示状态x对应的特征函数,α1为值函数的学习率。

4.根据权利要求1所述的基于近似模型多步优化的清洁机器人最优路径规划方法,其特征在于,步骤(8)中的策略的近似公式为: 采用梯度下降法进行更新,其参数向量为: 表示状态x对应的特征函数,α2为策略的学习率,V(xt)为状态xt对应的值函数。

5.根据权利要求1所述的基于近似模型多步优化的清洁机器人最优路径规划方法,其特征在于,步骤(13)中的模拟轨迹即获取真实轨迹的初始状态和实际发生的动作序列,并利用学习的模型xt+1=φT(xt,ut)θt和rt+1=φT(xt,ut)υt来对下一个状态和奖赏进行预测,递归进行预测后将生成整个模拟的采样序列,其中φ为采用高斯函数表示的状态动作对的特征,xt表示时间步为t时的状态,ut表示时间步为t时的动作,φT表示状态动作的特征函数的转置,θt为模型中状态迁移函数的参数向量,υt表示模型中奖赏函数的参数向量。

6.根据权利要求1所述的基于近似模型多步优化的清洁机器人最优路径规划方法,其特征在于,步骤(14)中基于轨迹池的模型更新方式为:对于轨迹池中的所有轨迹,以及轨迹中的每个样本,采用单步的预测误差作为梯度信号,得到参数向量的更新公式为:和 xt表示时间步t对应的状态,

ut表示时间步为t时的动作,φT表示状态动作的特征函数的转置,α是模型即状态迁移函数和奖赏函数的学习率,xt+1为下一状态的真实值, 为根据模型的状态迁移函数得到的下一状态估计值;rt+1表示立即奖赏的真实值, 为根据模型的奖赏函数得到的奖赏估计值。

7.根据权利要求1所述的基于近似模型多步优化的清洁机器人最优路径规划方法,其特征在于,步骤(15)是在一定的规划次数下,迭代地利用模型xt+1=φT(xt,ut)θt和rt+1=φT(xt,ut)υt生成下一个状态和奖赏,并利用下一个状态和奖赏来更新值函数参数向量和策略参数向量 和ζt+1=ζt+α2(r+γV(xt+1)-V(xt))(u-u*)T(xt),其中,为高斯函数表示的状态特征,xt+1为下一状态的真实值,φT表示状态动作的特征函数的转置, 表示状态x对应的特征函数,xt表示时间步t对应的状态,ut表示时间步为t时的动作,θt为模型中状态迁移函数的参数向量,V(xt)状态xt对应的值函数,υt表示模型中奖赏函数的参数向量,  表示状态xt的特征,α1为值函数的学习率,α2为策略的学习率,rt+1=φT(xt,ut)υt表示立即奖赏的估计表达式。