1.一种结合Q-learning与多蜂群算法的疏散路径规划方法,其特征在于,包括:对构建的疏散场景模型初始化疏散人群和疏散出口;
采用多蜂群算法进行宏观路径规划,结合微观人群运动指导驱动个体到达疏散出口,直至疏散出口的疏散人数等于总人数,疏散过程结束;
所述多蜂群算法包括将疏散人群分为多个群组,根据群组内个体所在位置与疏散出口的距离和疏散出口的拥挤度计算适应度,根据适应度值和Q表中待选择搜索策略的质量值确定搜索策略,以此确定下一位置,群组中跟随者可选择的领导者范围为群组中适应度值最好的E个领导者,且领导者转化为侦察者后,采用改进的侦查者搜索策略得到新位置。
2.如权利要求1所述的一种结合Q-learning与多蜂群算法的疏散路径规划方法,其特征在于,所述将疏散人群分为多个群组包括:以第一个个体作为第一个中心点,选择与第一个中心点最远的个体作为第二个中心点,以同样方法依次确定其他中心点,直至无新的中心点;
将其余个体按最小距离原则归入最近的中心点;
计算群组中每个个体的适应度值,对适应度值进行排序后选择领导者,其余作为跟随者。
3.如权利要求1所述的一种结合Q-learning与多蜂群算法的疏散路径规划方法,其特征在于,确定下一位置后,根据新位置的适应度值和Q表中待选择搜索策略的质量值重新确定搜索策略并更新位置。
4.如权利要求1所述的一种结合Q-learning与多蜂群算法的疏散路径规划方法,其特征在于,在构建的搜索策略池中匹配待选择搜索策略,所述搜索策略池包括:根据个体当前位置和在当前群组内随机选择的一个邻居个体位置得到新位置;
以领导者当前位置为搜索起点,在两个随机选择的群组内的邻居个体位置的指导下更新位置;
以群组内随机选择的一个邻居个体位置为搜索起点,根据群组内随机选择的两个邻居个体位置和最优个体位置得到新位置;
以最优个体位置为搜索起点,根据群组内随机选择的两个邻居个体位置得到新位置。
5.如权利要求1所述的一种结合Q-learning与多蜂群算法的疏散路径规划方法,其特征在于,群组内跟随者选择与跟随的领导者相同的搜索策略,所述跟随者随着疏散过程的进行,缩小可选择的领导者范围为群组中适应度值最好的E个领导者;E的计算方式如下:其中,NP为群组内领导者个数,iter为当前迭代次数,随着迭代的进行,E的范围不断减小。
6.如权利要求1所述的一种结合Q-learning与多蜂群算法的疏散路径规划方法,其特征在于,所述改进的侦查者搜索策略为自适应调整侦查者的搜索方向,向适应度值更好的一方移动。
7.如权利要求1所述的一种结合Q-learning与多蜂群算法的疏散路径规划方法,其特征在于,采用社会力模型进行微观人群运动指导,根据个体期望力、障碍物对个体的排斥力以及个体间的相互作用力,驱动个体到达下一位置,直至个体到达疏散出口。
8.一种结合Q-learning与多蜂群算法的疏散路径规划系统,其特征在于,包括:模型初始化模块,用于对构建的疏散场景模型初始化疏散人群和疏散出口;
疏散仿真模块,用于采用多蜂群算法进行宏观路径规划,结合微观人群运动指导驱动个体到达疏散出口,直至疏散出口的疏散人数等于总人数,疏散过程结束;
路径规划模块,用于多蜂群算法将疏散人群分为多个群组,根据群组内个体所在位置与疏散出口的距离和疏散出口的拥挤度计算适应度,根据适应度值和Q表中待选择搜索策略的质量值确定搜索策略,以此确定下一位置,群组中跟随者可选择的领导者范围为群组中适应度值最好的E个领导者,且领导者转化为侦察者后,采用改进的侦查者搜索策略得到新位置。
9.一种电子设备,其特征在于,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-7任一项所述的方法。