1.机器人路径导航方法,其特征是,包括:获取机器人状态信息、障碍物信息以及目标位置信息;
将获取的信息输入到训练后的DDPG网络模型中,得到机器人路径导航结果;根据导航结果,完成机器人路径导航;
其中,DDPG网络模型通过dueling网络来计算Q值;
其中,DDPG网络模型的奖励值通过奖励函数来计算,所述奖励函数中包含欧式距离与余弦距离的差值;
其中,所述欧式距离,是指第一欧式距离与第二欧式距离之间的差值;所述第一欧式距离,是指机器人前一时刻所在的位置与目标位置之间的欧式距离,所述第二欧式距离,是指机器人当前时刻所在的位置与目标位置之间的欧式距离;
其中,所述余弦距离,是指第一向量与第二向量之间的余弦距离;所述第一向量是指目标位置指向机器人当前时刻所在位置的向量;所述第二向量是指目标位置指向机器人前一时刻所在位置的向量。
2.如权利要求1所述的机器人路径导航方法,其特征是,所述训练后的DDPG网络模型;
训练步骤包括:
(1):初始化Actor当前网络、Actor目标网络、经验回放池、Critic目标网络和Critic当前网络;
(2):获取机器人状态信息S、障碍物信息以及目标位置信息;
(3):将机器人状态信息S输入Actor当前网络,Actor当前网络对状态信息S进行处理,得到执行动作A;执行动作A加上服从正态分布的随机噪声,增强机器人的搜索能力;
(4):机器人执行动作A,得到新状态S’,通过奖励函数得到奖励值R,将(S,A,S’,R,done)作为一条经验数据存入经验回放池中;
(5):Critic当前网络从经验池中取出若干个样本,通过dueling网络计算当前目标Q值;并基于当前目标Q值计算损失函数,通过梯度反向传播来更新Critic当前网络中所有参数;
(6):通过梯度反向传播来更新Actor当前网络中的所有参数;
(7):基于Actor当前网络的网络参数对Actor目标网络的网络参数进行更新;基于Critic当前网络的网络参数对Critic目标网络的网络参数进行更新;
(8):判断新状态S’是否是终止状态,如果是,则当前轮迭代完毕,否则,进入(3)。
3.如权利要求2所述的机器人路径导航方法,其特征是,所述通过奖励函数得到奖励值R;具体过程为:
其中,arrive代表到达目标位置,done代表碰撞到障碍物,R1代表由余弦距离得到的奖励值,R2代表由欧氏距离得出的奖励值。
4.如权利要求3所述的机器人路径导航方法,其特征是,所述R1,计算过程为:vec1=(currentx‑goalx,currrenty‑goaly)vec2=(pastx‑goalx,pasty‑goaly)其中,(currentx,currenty)代表机器人的当前时刻所在的位置;(pastx,pasty)代表机器人的前一时刻所在的位置;vec1代表从目标位置指向当前时刻所在位置的向量;vec2代表从目标位置指向前一时刻所在位置的向量,Cos(vec1,vec2)代表两个向量之间的余弦距离。
5.如权利要求3所述的机器人路径导航方法,其特征是,所述R2,计算过程为:R2=C*distance_ratedistance_rate=past_distance‑current_distance其中,(currentx,currenty)代表机器人的当前时刻所在的位置,(pastx,pasty)代表机器人的前一时刻所在的位置,current_distance与past_distance分别代表他们与目标位置的欧氏距离,C为一个正常数。
6.如权利要求2所述的机器人路径导航方法,其特征是,所述通过dueling网络计算当前目标Q值;具体包括:
Q=stateq+action_qstate_q=V(S;α)
action_q=A(S,A;β)其中,state_q代表状态S本身具有的价值;action_q代表在状态S下做出动作A时具有的价值;α和β分别是两个神经网络全连接层参数,Q代表当前目标Q值。
7.如权利要求6所述的机器人路径导航方法,其特征是,所述dueling网络的网络结构包括:
依次连接的第一全连接层、第二全连接层和第三全连接层;所述第一全连接层用于输入状态S;所述第三全连接层用于输出状态S本身具有的价值state_q;
其中,第二全连接层的输出端还与第四全连接层的输入端连接;
第五全连接层的输入端用于输入在状态S下做出动作A;
第四全连接层的输出端和第五全连接层的输出端,均与第六全连接层的输入端连接;
第六全连接层的输出端用于输出在状态S下做出动作A时具有的价值action_q;
第三全连接层的输出端和第六全连接层的输出端均与加法器的输入端连接,加法器的输出端输出当前目标Q值。
8.机器人路径导航系统,其特征是,包括:获取模块,其被配置为:获取机器人状态信息、障碍物信息以及目标位置信息;
输出模块,其被配置为:将获取的信息输入到训练后的DDPG网络模型中,得到机器人路径导航结果;根据导航结果,完成机器人路径导航;
其中,DDPG网络模型通过dueling网络来计算Q值;
其中,DDPG网络模型的奖励值通过奖励函数来计算,所述奖励函数中包含欧式距离与余弦距离的差值;
其中,所述欧式距离,是指第一欧式距离与第二欧式距离之间的差值;所述第一欧式距离,是指机器人前一时刻所在的位置与目标位置之间的欧式距离,所述第二欧式距离,是指机器人当前时刻所在的位置与目标位置之间的欧式距离;
其中,所述余弦距离,是指第一向量与第二向量之间的余弦距离;所述第一向量是指目标位置指向机器人当前时刻所在位置的向量;所述第二向量是指目标位置指向机器人前一时刻所在位置的向量。
9.一种电子设备,其特征是,包括:存储器,用于非暂时性存储计算机可读指令;以及处理器,用于运行所述计算机可读指令,其中,所述计算机可读指令被所述处理器运行时,执行上述权利要求1‑7任一项所述的方法。
10.一种存储介质,其特征是,非暂时性地存储计算机可读指令,其中,当所述非暂时性计算机可读指令由计算机执行时,执行权利要求1‑7任一项所述方法的指令。