1.基于Q‑Learning算法的单机器人路径规划方法,其特征在于,包括以下步骤:S1:初始化单机器人系统的探索因子、最大迭代次数、终止状态参数、目标状态参数、最大计数阈值、开始更新时刻、迭代次数、当前时刻、动作值函数、状态‑动作对的访问次数、成功路径、成功路径储存表、成功寻路次数、最大成功寻路次数、成功路径数、最小路径数;
S2:判断迭代次数是否大于最大迭代次数,若是:则执行步骤S6;若否:则先判断成功寻路次数是否大于预存的最大成功寻路次数,若是:则更新探索因子的值,并执行下一步骤;
若否:则执行下一步骤;
S3:生成一个随机数,比较随机数和探索因子后选取一个动作指令,根据该动作指令计算生成机器人执行该动作指令后的运行状态参数和奖赏函数;然后,判断运行状态参数是否等于终止状态参数,若是:则继续判断运行状态参数是否等于目标状态参数,若等于,则将成功路径存储到成功路径储存表中,执行迭代次数自加一,再返回步骤S2,若不等于,则执行迭代次数自加一,再返回步骤S2;若否:则执行下一步骤;
S4:判断开始更新时刻是否小于等于当前时刻,若是:则存储奖赏函数、执行状态‑动作对的访问次数自加一,再执行下一步骤;若否:则判断状态‑动作对的访问次数是否等于最大计数阈值,若是,则更新动作值函数,再执行下一步骤,若否,则执行下一步骤;
S5:将运行状态参数存储到成功路径中,执行当前时刻自加一,再返回步骤S3;
S6:获取动作值函数,根据预设的初始状态参数从动作值函数中选取动作指令,并重复:执行动作指令生成状态参数,根据状态参数选取动作指令,当生成的状态参数等于预设的目标状态参数时,得到单机器人系统的最优路径。
2.如权利要求1所述的基于Q‑Learning算法的单机器人路径规划方法,其特征在于:步骤S4中,更新动作值函数的公式为Q(s,a)=U(s,a)/h,式中,Q(s,a)为动作值函数,U(s,a)为存储的奖赏函数,h为最大计数阈值。
3.如权利要求1所述的基于Q‑Learning算法的单机器人路径规划方法,其特征在于:步骤S3中,若运行状态参数等于终止状态参数且等于目标状态参数,则在执行步骤S2之前,执行预设的成功寻路次数自加一。
4.如权利要求3所述的基于Q‑Learning算法的单机器人路径规划方法,其特征在于:步骤S2中,更新探索因子的值时,先判断成功路径数是否小于预存的最小路径数,若是:则执行ε′=ε+eSize×(Minpathnum‑pathnun),ε表示更新前的探索因子,ε′表示更新后的探索因子,并令ε′=ε,式中,eSize为预存的探索因子单次更新步长,MinPathNum为最小路径数,PathNum为成功路径数;若否:则执行ε′=ε‑eSize×(i/eCycle),ε表示更新前的探索因子,ε′表示更新后的探索因子,并令ε′=ε,式中,eSize为预存的探索因子单次更新步长,i为迭代次数,eCycle为预存的探索因子改变周期。
5.如权利要求1所述的基于Q‑Learning算法的单机器人路径规划方法,其特征在于:步骤S3中,比较随机数和探索因子时,若随机数大于探索因子,则根据预存的概率模型选取动作指令;若随机数小于等于探索因子,则从预存的动作集中随机选取动作指令。
6.如权利要求5所述的基于Q‑Learning算法的单机器人路径规划方法,其特征在于:步骤S3中,概率模型选取动作指令的公式为 式中,P(s|ak)为状态参数s下选取动作指令ak的概率,Q(s,ak)为状态参数s下动作指令ak的Q值, 为状态参数s下所有动作指令的Q值。