1.基于多Agent共享Q表的人群疏散仿真方法,其特征是,包括:
搭建仿真环境,初始化疏散人群,将疏散人群划分为管理者Agent、若干个引领者Agent和若干个普通跟随者Agent;
每个引领者Agent维护自身感知的状态信息表Q1,并将自身感知的状态信息表Q1上传给管理者Agent;
管理者Agent将所有引领者上传的自身感知的状态信息表Q1与成功疏散过行人的疏散路径使用频率表Q2合并,得到全局共享Q表;将全局共享Q表共享给所有的引领者Agent和所有的普通跟随者Agent;
每个引领者Agent根据接收到的全局共享Q表对路径进行规划,给出路径选择策略,将路径选择策略广播给设定距离范围内的普通跟随者Agent;
普通跟随者Agent根据自身与出口之间的距离、路径选择策略或者全局共享Q表,对自身路径进行规划。
2.如权利要求1所述的基于多Agent共享Q表的人群疏散仿真方法,其特征是,初始化疏散人群,包括:其中,Px,y表示行人在x,y进行路径规划的先验概率;ai表示行人到出口i的归一化之后的距离,其计算过程如公式(2)所示;t表示疏散时间,n为当前场景出口的数目,e-γt为时间衰减因子,γ为状态收敛系数,其值决定疏散状态的收敛速度,γ值为0.01,t为疏散时间,其中,dj表示当前位置到出口j的最短距离,dj利用广度优先算法获取。
3.如权利要求1所述的基于多Agent共享Q表的人群疏散仿真方法,其特征是,管理者Agent用于更新和共享全局状态信息,所述全局状态信息,包括:所有路段的密度、相邻路段的密度差、出口位置以及所有成功撤离者所经过疏散段的使用频次;
引领者Agent用于按照设定周期向管理者Agent上报自身接收的局部状态信息,并从管理者Agent获取全局状态信息;然后依据全局状态信息给出路径规划策略,引领普通跟随者Agent进行疏散;所述局部状态信息,是引领者Agent所观察到的信息,包括:局部疏散路段密度和局部相邻路段的密度差;
普通跟随者Agent根据自身距离出口的距进行路径规划;或者,依据距离最近的引领者Agent给出的路径规划策略进行路径规划;或者,通过管理者Agent共享的全局状态信息来进行路径规划。
4.如权利要求1所述的基于多Agent共享Q表的人群疏散仿真方法,其特征是,每个引领者Agent维护自身感知的状态信息表Q1具体是指:Q1(A,B)=exp(DA-DB) (3)其中,DA是路段A的行人密度,DB是路段B的行人密度,如果路段B的行人密度小于路段A处的行人密度,则行人易于选择B路段撤离;即Q1(A,B)值越大,行人越容易选择B路段作为疏散路径;Q1(A,B)表示行人由路段A转移到路段B的概率;所述路段是两个出口之间的路径;
当t时刻有行人成功疏散,则t+1时刻成功疏散过行人的疏散路径使用频率表Q2具体是指:
其中,routei为编号为i的行人在成功疏散后曾经所走的路线,A和B为两个路段,为Q值增量,值为Agent行走路线长度的倒数,1/routei; 表示t时刻路段A到B的使用频次,在t=0时刻,其值为0; 则表示t+1时刻路段A到B的使用频次;
将所有引领者上传的自身感知的状态信息表Q1与已经成功疏散过行人的疏散路径利用频次表Q2合并具体是指:其中,Q(A,B)表示路段A到B之间的状态值,即路段A转向路段B的转移概率; 表示路段A转向路段B的归一化之后的密度差; 表示路段A转向路段B的归一化之后使用频率; 表示路段A转向路段i的归一化之后密度差; 表示路段A转向路段i的归一化之后使用频率。
5.如权利要求1所述的基于多Agent共享Q表的人群疏散仿真方法,其特征是,每个引领者Agent根据接收到的全局共享Q表对路径进行规划,给出路径选择策略具体步骤,包括:其中,R为所有候选路径集合,Ri为可供选择的某条路径,且Ri的终点是场景某一出口,A,B为路径Ri上两个相邻路段,Q(A,B)为管理者Agent提供的全局共享Q表中路径A到路径B的转移概率,Q(A,B)的计算过程见公式(5),L(Ri)为路径Ri的路径长度;Rmax表示行人对所有待选路径Ri的评估的最大值;
将路径选择策略广播给设定距离范围内的普通跟随者Agent步骤中:
引领者Agent广播的路径选择策略对普通跟随者Agent产生的影响CFki:
其中,P0引领者Agent的位置,Pi表示普通跟随者Agent的位置;随着距离的增加,引领者Agent对其周围普通跟随者Agent的影响在减弱,σ为以引领者信息广播半径。
6.如权利要求1所述的基于多Agent共享Q表的人群疏散仿真方法,其特征是,普通跟随者Agent根据自身与出口之间的距离对自身路径进行规划的步骤为:当出口出现在普通跟随者Agent视野中,选择出现在普通跟随者Agent视野中的出口,普通跟随者Agent自行规划疏散路径进行撤离;
普通跟随者Agent的路径规划,其候选路径的评估公式:
其中,R'为出现在普通跟随者Agent视野中的路径集合。
7.如权利要求1所述的基于多Agent共享Q表的人群疏散仿真方法,其特征是,普通跟随者Agent根据路径选择策略进行规划的步骤为:当普通跟随者Agent的视野中没有出口,只存在引领者Agent时,普通跟随者Agent从引领者Agent处获取疏散信息,规划疏散路径;路径规划过程:其中,i为当前普通跟随者Agent的编号,k为普通跟随者Agent i视野内引领者Agent的编号,Nl为普通跟随者Agent i视野内领者Agent的编号集合,Rmax表示普通跟随Agent视野范围内,所有引领者Agent提供疏散信息评估的最大值,CFki表示编号为k的引领者Agent对当前普通跟随者Agent i的影响;Rk为视野内编号为k的引领者Agent所规划的路径,dk为普通跟随者Agent和引领者Agent之间的距离,L(Rk)表示路径待选Rk到出口的距离,Q(A,B)表示路段A到路段B的转移概率。
8.如权利要求1所述的基于多Agent共享Q表的人群疏散仿真方法,其特征是,普通跟随者Agent根据全局共享Q表进行规划的步骤为:当普通跟随者Agent在疏散过程中,出口和引领者均不在视野范围内时,普通跟随者Agent则利用管理者Agent全局共享Q表的内容进行路径规划,普通跟随者Agentj对路径i的评估值Rv_ji可采用如下表达式:采用轮盘赌的策略从公式(10)所确定的评估值高的前m条路径中随机选择,作为普通跟随者Agent的决策路径集合,则集合中路径被选择的概率PSk由下式表示:普通跟随者Agent根据自身与出口之间的距离、路径选择策略或者全局共享Q表,对自身路径进行规划步骤之前,还包括:判断是否进行路径规划,其决策表达式如下:其中,P表示行人进行路径过规划的决策变量,当P等于1时进行路径规划,否则不进行路径规划;di为行人i在设定时间段内运动的距离,Nt为当前尚未撤离的行人数量,e-λt为时间衰减因子;等式(12)描述了行人i在当设定时间段内运动距离低于场景内所有尚未撤离行人运动距离平均值时,才进行重新路径规划,重新选择路径。
9.基于多Agent共享Q表的人群疏散仿真系统,其特征是,包括:存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述权利要求1-8任一项方法所述的步骤。
10.一种计算机可读存储介质,其特征是,其上存储有计算机指令,所述计算机指令被处理器运行时,完成上述权利要求1-8任一项方法所述的步骤。