1.一种快速搜索机制下改进DQN的机器人路径规划算法,其特征在于:包括如下步骤:S1、设置实验所需参数,参数包括贪婪系数、记忆库大小、折扣率、学习率、批量学习值;
S2、根据三维地形环境的坡度特征和机器人运动几何学特性,建立一个二维的栅格地图用来模拟环境;
S3、设计快速搜索机制,采用快速搜索机制对当前位置环境进行部分建模,在建模的同时进行奖赏值的计算,对奖赏值最大的动作以及障碍物点进行深度记忆;
S4、建立机器人的动作集,将DQN算法中四个动作扩充为八个动作;
S5、设计连续报酬函数:改进并引用启发式搜索算法,设计一个连续的报酬函数;
S6、设置n回合,当机器人达到目标点,一个回合结束,当达到n回合,训练结束,机器人通过n回合训练输出一条最优路径。
2.根据权利要求1所述的一种快速搜索机制下改进DQN的机器人路径规划算法,其特征在于:所述S1中Q_Learnin算法包括如下步骤:S1.1、强化学习问题为一个马尔科夫决策过程,即MDP,MDP过程由5元素构成:{A、S、P、R、γ},其中S代表机器人的状态集,A是机器人的动作集,R是报酬函数,γ是折扣因子,即γ∈[0,1],P代表转移概率,即机器人在t时刻执行动作at后状态由St转移到St+1的概率;
S1.2、通过强化学习,使机器人找到最优的行动序列π*={a1*、a2*.....an*},在给定的环境下最大化累计奖励。
3.根据权利要求1所述的一种快速搜索机制下改进DQN的机器人路径规划算法,其特征在于:S1中,DQN算法包括如下步骤:S1.11、根据Q_Learnin算法,建立一张Q值表,通过机器人与环境交互,得到奖赏函数值,通过不断迭代修改Q值表,使选择正回报值的动作的概率不断增加,随着不断与环境交互,更该动作策略集,是机器人的动作最终趋于最优动作集;
S1.12、强化学习采用状态-动作对Q(s,a)迭代方式来获得最优策略;
S1.13、构建两个神经网络,通过深度神经网络对回报值得计算代替Q表,一个神经网络用于计算Q现实,一个用于计算法Q估计,然后计算Q现实与Q估计的差值进行训练,最终达到差值最小。
4.根据权利要求1所述的一种快速搜索机制下改进DQN的机器人路径规划算法,其特征在于:S2中,根据三维地形环境的坡度特征和机器人运动几何学特性,建立一个二维的栅格地图用来模拟环境,采用python tkinter搭建仿真环境,仿真环境分为简单环境和复杂环境两种,环境地图中地图中用灰色矩形代表机器人,用圆形代表目标点,用黑色矩形代表障碍物,机器人的起始坐标用S(xs,ys),目标点坐标G(xg,yg),当前坐标为C(xc,yc)。
5.根据权利要求1所述的一种快速搜索机制下改进DQN的机器人路径规划算法,其特征在于:S3中,快速搜索机制的设计,包括如下步骤:S3.1、设计路径快速下降线,机器人沿着路径快速下降线行走,将由目标点与起始点所构成的线段设计为快速降线;
S3.2、设计搜索器,将机器人与其目标点方位相同的一个身为的大小设计为搜索器的大小。
6.根据权利要求1所述的一种快速搜索机制下改进DQN的机器人路径规划算法,其特征在于:S4中,机器人能执行上、下、左、右、左上、左下、右上、右下八个动作,用机器人当前坐标(x,y)表示当前状态S(x,y)。
7.根据权利要求1所述的一种快速搜索机制下改进DQN的机器人路径规划算法,其特征在于:S5中,设计连续的报酬函数,机器人每执行一个动作,会有相应的回报值作为奖励,回报值用来给机器人反馈,机器人通过回报值来改变自己的动作,地图中用灰色矩形代表机器人,用圆形代表目标点,用黑色矩形代表障碍物。
8.根据权利要求1所述的一种快速搜索机制下改进DQN的机器人路径规划算法,其特征在于,其特征在于:S6中,设置n回合进行训练,当机器人到达目标点则本回合结束,达到n回合时训练结束,输入最优路径。