1.一种基于深度强化学习的机器人路径导航方法,其特征在于,包括:
基于深度强化学习构建双Actor-Critic神经网络,根据获取的机器人当前运动状态,采用第一Actor-Critic神经网络输出机器人的初始移动动作以及初始移动动作的评价值;
以机器人当前运动状态和初始移动动作的评价值作为训练集对第二Actor-Critic神经网络进行训练,根据训练后的第二Actor-Critic神经网络对第一Actor-Critic神经网络进行更新,以更新后的第一Actor-Critic神经网络根据机器人当前运动状态输出最优移动动作,以此对机器人进行最优路径的导航。
2.如权利要求1所述的一种基于深度强化学习的机器人路径导航方法,其特征在于,根据获取的机器人导航环境参数,采用栅格化方法构建模拟导航地图;所述机器人导航环境参数包括机器人起点位置、障碍物位置和导航目的地位置。
3.如权利要求1所述的一种基于深度强化学习的机器人路径导航方法,其特征在于,根据机器人携带的激光测距传感器采集10维激光测距信息,结合机器人前动作和目的地相对位置得到机器人当前运动状态。
4.如权利要求1所述的一种基于深度强化学习的机器人路径导航方法,其特征在于,采用所述第一Actor-Critic神经网络中Actor神经网络输出机器人的初始移动动作,对初始移动动作采用Critic神经网络进行评价,得到评价值。
5.如权利要求1所述的一种基于深度强化学习的机器人路径导航方法,其特征在于,将机器人当前运动状态和初始移动动作作为Critic神经网络的输入,根据机器人是否到达目的地、机器人是否发生碰撞以及机器人与目的地的距离设置奖励函数,对初始移动动作进行评价。
6.如权利要求1所述的一种基于深度强化学习的机器人路径导航方法,其特征在于,所述机器人当前运动状态和初始移动动作的评价值存储至经验回放池,作为第二Actor-Critic神经网络的训练集,第二Actor-Critic神经网络采用软更新的方法进行训练。
7.如权利要求1所述的一种基于深度强化学习的机器人路径导航方法,其特征在于,对第一Actor-Critic神经网络采用梯度下降方法进行更新。
8.一种基于深度强化学习的机器人路径导航系统,其特征在于,包括:
初始路径导航模块,用于基于深度强化学习构建双Actor-Critic神经网络,根据获取的机器人当前运动状态,采用第一Actor-Critic神经网络输出机器人的初始移动动作以及初始移动动作的评价值;
路径导航更新模块,用于以机器人当前运动状态和初始移动动作的评价值作为训练集对第二Actor-Critic神经网络进行训练,根据训练后的第二Actor-Critic神经网络对第一Actor-Critic神经网络进行更新,以更新后的第一Actor-Critic神经网络根据机器人当前运动状态输出最优移动动作,以此对机器人进行最优路径的导航。
9.一种电子设备,其特征在于,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-7任一项所述的方法。