1.基于改进的DDPG算法的机器人路径导航方法,其特征是,包括:
获取机器人当前状态信息和目标位置;
将机器人当前状态信息及目标位置,输入到训练后的改进的DDPG网络中,得到最优可执行动作数据;
机器人根据最优可执行动作数据,完成无碰撞的路径导航;
其中,所述改进的DDPG网络基于DDPG网络,将DDPG网络的奖励值计算利用好奇心奖励机制模型来完成;所述好奇心奖励机制模型,包括:若干个依次串联的LSTM模型;所述依次串联的LSTM模型中,所有LSTM模型的输入端与Actor当前网络的输出端连接,最后一个LSTM模型的输出端与CNN模型的输入端连接,CNN模型的输出端与Actor当前网络的输入端连接;
完成好奇心奖励机制模型的训练,训练步骤包括:
(a)机器人选择在状态St下对应的动作At,并通过与环境交互产生下一个状态St+1和奖励值R;
(b)将机器人与环境交互产生的经验数据(St,At,R,St+1,done)存入经验回放池中,经验回放池中新增一个堆栈结构,以便按照时序性存取经验数据,done代表是否完成机器人导航;
(c)将堆栈结构中带有时序性的经验数据输入LSTM网络,如图2所示,首个LSTM模型只输入对应时刻的机器人状态信息;非首个LSTM模型的输入均由两部分组成,一部分是对应时刻的机器人状态信息,另外一部分是前一时刻的LSTM模型的输出值;最后一个LSTM模型输出下一时刻机器人状态预测值St+1';
i
(d)将实际的下一个状态St+1与预测出的下一个状态St+1'之间的差值作为内部奖励r ,i e同时将内部奖励r与原有的外部奖励r之和作为机器人探索环境的总奖励R;将实际的下一个状态St+1与预测出的下一个状态St+1'之间的差值作为训练过程中的第一个约束条件;
(e)将当前时刻机器人状态St和下一时刻机器人状态预测值St+1',输入到卷积神经网络CNN中,输出反向预测动作At';
(f)反向预测出的动作At'与实际的动作At之间的差值作为训练过程中的第二个约束条件,利用梯度的反向传播训练好奇心奖励机制模型,完成好奇心奖励机制模型的训练;
所述改进的DDPG网络基于DDPG网络,对DDPG网络的经验回放池新增一个堆栈结构;经验回放池中存储两批数据,一个是原来的随机采样获得的样本,一个是堆栈结构获得的时序样本;堆栈结构获得的时序样本,用于好奇心奖励机制模型训练时使用;随机采样获得的样本,用于DDPG网络的Actor模块和Critic模块训练时使用。
2.如权利要求1所述的基于改进的DDPG算法的机器人路径导航方法,其特征是,将机器人当前状态信息及目标位置,输入到训练后的改进的DDPG网络中,得到最优可执行动作数据;具体包括:将机器人当前状态信息及目标位置,输入到训练后的改进的DDPG网络中,改进的DDPG网络的Actor模块生成最优可执行动作数据。
3.如权利要求1所述的基于改进的DDPG算法的机器人路径导航方法,其特征是,将机器人当前状态信息及目标位置,输入到训练后的改进的DDPG网络中,得到最优可执行动作数据;其中,改进的DDPG网络,包括:依次连接的Actor模块、经验回放池和Critic模块;
其中,Actor模块,包括依次连接的Actor当前网络和Actor目标网络;
其中,Critic模块,包括依次连接的Critic当前网络和Critic目标网络;
其中,Actor当前网络与好奇心奖励机制模型的所有的LSTM模型连接;Actor当前网络还与好奇心奖励机制模型的CNN模型的输出端连接。
4.如权利要求1所述的基于改进的DDPG算法的机器人路径导航方法,其特征是,将机器人当前状态信息及目标位置,输入到训练后的改进的DDPG网络中,得到最优可执行动作数据;其中,训练后的改进的DDPG网络的训练步骤包括:(1)构建训练集;所述训练集包括已知机器人导航路径的机器人每个时刻的状态;
(2)将训练集输入到改进的DDPG网络中,完成改进的DDPG网络的Actor模块的训练、Critic模块的训练以及好奇心奖励机制模型的训练。
5.如权利要求1所述的基于改进的DDPG算法的机器人路径导航方法,其特征是,当前状态信息,包括:机器人当前位置、机器人当前角速度、机器人当前线速度和机器人当前所处环境信息。
6.基于改进的DDPG算法的机器人路径导航系统,其特征是,包括:
获取模块,其被配置为:获取机器人当前状态信息和目标位置;
输出模块,其被配置为:将机器人当前状态信息及目标位置,输入到训练后的改进的DDPG网络中,得到最优可执行动作数据;
导航模块,其被配置为:机器人根据最优可执行动作数据,完成无碰撞的路径导航;
其中,所述改进的DDPG网络基于DDPG网络,将DDPG网络的奖励值计算利用好奇心奖励机制模型来完成;所述好奇心奖励机制模型,包括:若干个依次串联的LSTM模型;所述依次串联的LSTM模型中,所有LSTM模型的输入端与Actor当前网络的输出端连接,最后一个LSTM模型的输出端与CNN模型的输入端连接,CNN模型的输出端与Actor当前网络的输入端连接;
完成好奇心奖励机制模型的训练,训练步骤包括:
(a)机器人选择在状态St下对应的动作At,并通过与环境交互产生下一个状态St+1和奖励值R;
(b)将机器人与环境交互产生的经验数据(St,At,R,St+1,done)存入经验回放池中,经验回放池中新增一个堆栈结构,以便按照时序性存取经验数据,done代表是否完成机器人导航;
(c)将堆栈结构中带有时序性的经验数据输入LSTM网络,如图2所示,首个LSTM模型只输入对应时刻的机器人状态信息;非首个LSTM模型的输入均由两部分组成,一部分是对应时刻的机器人状态信息,另外一部分是前一时刻的LSTM模型的输出值;最后一个LSTM模型输出下一时刻机器人状态预测值St+1';
i
(d)将实际的下一个状态St+1与预测出的下一个状态St+1'之间的差值作为内部奖励r ,i e同时将内部奖励r与原有的外部奖励r之和作为机器人探索环境的总奖励R;将实际的下一个状态St+1与预测出的下一个状态St+1'之间的差值作为训练过程中的第一个约束条件;
(e)将当前时刻机器人状态St和下一时刻机器人状态预测值St+1',输入到卷积神经网络CNN中,输出反向预测动作At';
(f)反向预测出的动作At'与实际的动作At之间的差值作为训练过程中的第二个约束条件,利用梯度的反向传播训练好奇心奖励机制模型,完成好奇心奖励机制模型的训练;
所述改进的DDPG网络基于DDPG网络,对DDPG网络的经验回放池新增一个堆栈结构;经验回放池中存储两批数据,一个是原来的随机采样获得的样本,一个是堆栈结构获得的时序样本;堆栈结构获得的时序样本,用于好奇心奖励机制模型训练时使用;随机采样获得的样本,用于DDPG网络的Actor模块和Critic模块训练时使用。
7.一种电子设备,其特征是,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述权利要求1‑5任一项所述的方法。
8.一种计算机可读存储介质,其特征是,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1‑5任一项所述的方法。