1.一种结合Q‑learning与多蜂群算法的疏散路径规划方法,其特征在于,包括:对构建的疏散场景模型初始化疏散人群和疏散出口;
采用多蜂群算法进行宏观路径规划,结合微观人群运动指导驱动个体到达疏散出口,直至疏散出口的疏散人数等于总人数,疏散过程结束;
所述多蜂群算法包括将疏散人群分为多个群组,根据群组内个体所在位置与疏散出口的距离和疏散出口的拥挤度计算适应度,根据适应度值和Q表中待选择搜索策略的质量值确定搜索策略,以此确定下一位置,具体步骤为:(1)对每个群组中始化一个n行t列的Q表,其中,n为群组中领导者的个数,t是搜索策略的个数;
(2)根据领导者当前位置计算其适应度值,将领导者按照适应度值从大到小进行排序,并对应于Q表的每一行,得到处于状态Sr的个体,即位于第r行的个体,有t个搜索策略可以选择;
(3)每个搜索策略l被选择的概率与搜索策略的质量函数Q值Q(Sr,al)相关,如下式(2),搜索策略的Q值越高,表示被选择的概率越大;
(4)根据所选择的搜索策略更新位置,并在新位置和旧位置之间保留较好的一个,同时根据更新的位置再次计算Q值:Q(st,at)=Q(st,at)+α·[Rt+γmax Q(st+1,a)‑Q(st,at)] (3)其中,Q(st,at)代表Q值,α为学习率,γ为奖励性系数,R为回报值,max Q(st+1,a)是下一个状态St+1中最大的Q值;回报值R为:R=fitnessnew‑fitnessold (4)
其中,fitnessnew与fitnessold分别为新位置的适应度与旧位置的适应度;(5)跟随者选择与自己跟随的领导者一致的搜索策略,依次确定下一位置;
(6)每一次迭代后,所有领导者在群组内按照新位置的适应度值大小重新排序,每个领导者获得新的排序状态,在下一次迭代中每个个体按照新的状态行中Q值选择搜索策略并更新位置;
群组中跟随者可选择的领导者范围为群组中适应度值最好的E个领导者,且领导者转化为侦察者后,采用改进的侦查者搜索策略得到新位置;
在构建的搜索策略池中匹配所述待选择搜索策略,所述搜索策略池包括:
根据个体当前位置和在当前群组内随机选择的一个邻居个体位置得到新位置;以领导者当前位置为搜索起点,在两个随机选择的群组内的邻居个体位置的指导下更新位置;以群组内随机选择的一个邻居个体位置为搜索起点,根据群组内随机选择的两个邻居个体位置和最优个体位置得到新位置;以最优个体位置为搜索起点,根据群组内随机选择的两个邻居个体位置得到新位置。
2.如权利要求1所述的一种结合Q‑learning与多蜂群算法的疏散路径规划方法,其特征在于,所述将疏散人群分为多个群组包括:以第一个个体作为第一个中心点,选择与第一个中心点最远的个体作为第二个中心点,以同样方法依次确定其他中心点,直至无新的中心点;
将其余个体按最小距离原则归入最近的中心点;
计算群组中每个个体的适应度值,对适应度值进行排序后选择领导者,其余作为跟随者。
3.如权利要求1所述的一种结合Q‑learning与多蜂群算法的疏散路径规划方法,其特征在于,确定下一位置后,根据新位置的适应度值和Q表中待选择搜索策略的质量值重新确定搜索策略并更新位置。
4.如权利要求1所述的一种结合Q‑learning与多蜂群算法的疏散路径规划方法,其特征在于,群组内跟随者选择与跟随的领导者相同的搜索策略,所述跟随者随着疏散过程的进行,缩小可选择的领导者范围为群组中适应度值最好的E个领导者;E的计算方式如下:其中,NP为群组内领导者个数,iter为当前迭代次数,随着迭代的进行,E的范围不断减小。
5.如权利要求1所述的一种结合Q‑learning与多蜂群算法的疏散路径规划方法,其特征在于,所述改进的侦查者搜索策略为自适应调整侦查者的搜索方向,向适应度值更好的一方移动。
6.如权利要求1所述的一种结合Q‑learning与多蜂群算法的疏散路径规划方法,其特征在于,采用社会力模型进行微观人群运动指导,根据个体期望力、障碍物对个体的排斥力以及个体间的相互作用力,驱动个体到达下一位置,直至个体到达疏散出口。
7.一种结合Q‑learning与多蜂群算法的疏散路径规划系统,其特征在于,包括:模型初始化模块,用于对构建的疏散场景模型初始化疏散人群和疏散出口;
疏散仿真模块,用于采用多蜂群算法进行宏观路径规划,结合微观人群运动指导驱动个体到达疏散出口,直至疏散出口的疏散人数等于总人数,疏散过程结束;
路径规划模块,用于多蜂群算法将疏散人群分为多个群组,根据群组内个体所在位置与疏散出口的距离和疏散出口的拥挤度计算适应度,根据适应度值和Q表中待选择搜索策略的质量值确定搜索策略,以此确定下一位置,具体步骤为:(1)对每个群组中始化一个n行t列的Q表,其中,n为群组中领导者的个数,t是搜索策略的个数;
(2)根据领导者当前位置计算其适应度值,将领导者按照适应度值从大到小进行排序,并对应于Q表的每一行,得到处于状态Sr的个体,即位于第r行的个体,有t个搜索策略可以选择;
(3)每个搜索策略l被选择的概率与搜索策略的质量函数Q值Q(Sr,al)相关,如下式(2),搜索策略的Q值越高,表示被选择的概率越大;
(4)根据所选择的搜索策略更新位置,并在新位置和旧位置之间保留较好的一个,同时根据更新的位置再次计算Q值:Q(st,at)=Q(st,at)+α·[Rt+γmax Q(st+1,a)‑Q(st,at)] (3)其中,Q(st,at)代表Q值,α为学习率,γ为奖励性系数,R为回报值,max Q(st+1,a)是下一个状态St+1中最大的Q值;回报值R为:R=fitnessnew‑fitnessold (4)
其中,fitnessnew与fitnessold分别为新位置的适应度与旧位置的适应度;(5)跟随者选择与自己跟随的领导者一致的搜索策略,依次确定下一位置;
(6)每一次迭代后,所有领导者在群组内按照新位置的适应度值大小重新排序,每个领导者获得新的排序状态,在下一次迭代中每个个体按照新的状态行中Q值选择搜索策略并更新位置;
群组中跟随者可选择的领导者范围为群组中适应度值最好的E个领导者,且领导者转化为侦察者后,采用改进的侦查者搜索策略得到新位置;
在构建的搜索策略池中匹配所述待选择搜索策略,所述搜索策略池包括:
根据个体当前位置和在当前群组内随机选择的一个邻居个体位置得到新位置;以领导者当前位置为搜索起点,在两个随机选择的群组内的邻居个体位置的指导下更新位置;以群组内随机选择的一个邻居个体位置为搜索起点,根据群组内随机选择的两个邻居个体位置和最优个体位置得到新位置;以最优个体位置为搜索起点,根据群组内随机选择的两个邻居个体位置得到新位置。
8.一种电子设备,其特征在于,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1‑6任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1‑6任一项所述的方法。