1.一种基于人工神经网络的Q-Learning行人疏散仿真方法,其特征是:该方法包括:根据初始化相关参数将待疏散的行人分为若干群组,并在每一群组内部选取一名引领者,剩余待疏散的行人为跟随者;
在每一群组内部,引领者优先学习选取基于神经网络的Q-Learning算法对疏散路径进行全局规划得到的最优路径,跟随者根据社会力模型计算其与群组内部、群组间及环境的合力避障跟随引领者;直至待疏散的行人全部疏散;
在每一群组内部,引领者优先学习选取基于神经网络的Q-Learning算法对疏散路径进行全局规划得到的最优路径的具体步骤为:将距离引领者当前所处位置最近的候选疏散关键点设置为当前位置;
检测与当前位置相连的所有下一候选疏散关键点,计算下一候选疏散关键点一定范围内的人群密度,若大于设定人群密度阈值则放弃该候选疏散关键点,否则,将所有满足设定人群密度阈值要求的下一候选疏散关键点标记为可选状态,将到达可选状态的行为记为动作A,产生下一可选关键点的“行为-状态对”;
根据所有下一可选关键点的“行为-状态对”信息利用BP算法计算收益并调整参数,执行Q-Learning算法,选取收益最大的下一可选关键点作为引领者的临时目标点,同时更新收益表;
重复上述步骤直至得到最优路径;
利用BP算法计算收益并调整参数的具体步骤为:
利用人工神经网络BP算法代替Q-Learning中的查找表,将Q-Learning的可选状态信息作为BP神经网络的输入,将每一个状态下可选择执行的动作的收益作为网络的输出,并更新收益的变化值作为BP网络输出层的误差,通过误差反向传播调整收益权值,并保存调整后的收益,最终得到拟合后的收益值,应用于Q-Learning算法。
2.如权利要求1所述的一种基于人工神经网络的Q-Learning行人疏散仿真方法,其特征是:该方法仿真完成后,将每一群组引领者学习的最优路径进行存储作为实际疏散的推荐路径。
3.如权利要求1所述的一种基于人工神经网络的Q-Learning行人疏散仿真方法,其特征是:该方法在将待疏散的行人分为若干群组前,获取行人疏散仿真的场景信息,根据场景信息得到初始化相关参数,所述初始化相关参数包括:待疏散场景的相关参数,待疏散的行人人数,待疏散的行人人体在待疏散场景中的初始位置,群组数目和候选疏散关键点。
4.如权利要求3所述的一种基于人工神经网络的Q-Learning行人疏散仿真方法,其特征是:所述根据场景信息得到初始化相关参数的具体步骤为:根据获取的行人疏散仿真的场景信息,在待疏散场景内均匀随机生成
roadmap图,得到待疏散场景的相关参数,并在roadmap图中提取roadmap点作为候选疏散关键点;
在待疏散场景内均匀随机初始化人群,得到待疏散的行人人数和待疏散的行人个体在待疏散场景中的初始位置,并根据待疏散的行人人数确定群组数目;
在待疏散场景内的每一个疏散出口处设置计数器,用于统计每个出口疏散的行人个体数。
5.如权利要求1所述的一种基于人工神经网络的Q-Learning行人疏散仿真方法,其特征是:在每一群组内部选取一名引领者的具体步骤为:根据待疏散的行人距出口的距离和对出口位置的了解程度计算个体适应度;
对群组内部全部待疏散的行人的个体适应度进行比较,选择适应度最高的个体作为该群组的引领者。
6.如权利要求1所述的一种基于人工神经网络的Q-Learning行人疏散仿真方法,其特征是:跟随者根据社会力模型计算其与群组内部、群组间及环境的合力避障跟随引领者的具体步骤为:对于每个群组内的跟随者,其目标点为引领者的当前关键点,并通过改进后社会力受力公式计算行人受目标影响的自驱动力、行人之间的排斥力、行人受墙或障碍物的力和同组间行人的聚合力的所受合力;
跟随者按照计算的所受合力向引领者的当前关键点作出行为运动。
7.一种计算机可读存储介质,其中存储有多条指令,所述指令执行权利要求1-6的任意一种基于人工神经网络的Q-Learning行人疏散仿真方法。
8.一种移动终端,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令执行权利要求1-6的任意一种基于人工神经网络的Q-Learning行人疏散仿真方法。