1.一种基于视觉感知的异常事件检测方法,用于检测异常行为发生的位置,其特征在于:包括以下步骤:S1、实时获取待检测现场的监控视频,并提取所述待检测现场的监控视频的视频帧;
S2、将当前时刻的视频帧输入到YOLOv3网络模型中,获取当前时刻的视频帧的视频特征,并检测出所述当前时刻的视频帧中每一个目标所在的位置,用矩形框将所述位置框出;
其中,一个矩形框将一个目标所在的位置框出;
S3、将步骤S2中框出目标位置的矩形框均提取出来,并对每个矩形框中对应的目标分别进行人体姿态估计,获得当前时刻的视频帧中每个目标的骨骼信息;
S4、将步骤S3中所述骨骼信息输入到训练好的VGG19网络模型中,获得当前时刻的视频帧中每个目标的骨骼特征;
S5、将步骤S4中所述骨骼特征输入到双向长短时记忆网络中,获得当前时刻的视频帧中每个目标的骨骼特征编码向量;
S6、将前一时刻的视频帧中解码LSTM输出的时间状态与步骤S5中所述骨骼特征编码向量输入到注意机制中,获得当前时刻的视频帧中注意系数和骨骼注意融合特征;
S7、将当前时刻的视频帧输入到基于初级视皮层V1区的层级模型中,分别模拟视皮层中简单细胞层和复杂细胞层,获得当前时刻的视频帧中每个目标的生物激励的视觉显著性特征;所述基于初级视皮层V1区的层级模型包含两层层级结构的不变特征提取模型;
S8、将步骤S6中所述骨骼注意融合特征和步骤S7中所述视觉显著性特征输入到特征融合层进行融合,获得当前时刻的视频帧中的融合特征,基于所述融合特征,获得当前时刻的视频帧中的异常行为分类结果;
S9、基于步骤S6中所述注意系数和步骤S8中所述异常行为分类结果,获得当前时刻的视频帧中分析异常行为时注意系数最大的目标序号,从而获得当前时刻的视频帧中异常行为发生的位置。
2.如权利要求1所述的一种基于视觉感知的异常事件检测方法,其特征在于:在步骤S3中,采用openpose模型对每个矩形框中对应的目标分别进行人体姿态估计。
3.如权利要求1所述的一种基于视觉感知的异常事件检测方法,其特征在于:在步骤S6中,获得所述当前时刻的视频帧中骨骼注意融合特征的步骤如下:S61、计算出当前时刻的视频帧中第i个目标的骨骼特征编码向量与前一时刻的视频帧中的时间状态之间的相关系数eti,计算公式如公式(1):eti=φ(ht-1,mti)=VT×tanh(Waht-1+Wbmti) (1)其中,t表示当前时刻,t-1表示前一时刻,i表示目标的序号,i∈{1,2,...,s},s表示目标的总数,φ表示一个全连接网络层,ht-1表示前一时刻的视频帧的时间状态,mti表示当前时刻的频帧中第i个目标的骨骼特征编码向量,Wa表示全连接网络层中ht-1的权重矩阵,Wb表示全连接网络层中mti的权重矩阵,VT表示全连接网络层中用来融合ht-1和mti的权重矩阵,tanh为激活函数;
S62、将相关系数eti输入softmax层,进行归一化操作,计算出当前时刻的视频帧中的第i个目标的注意系数ati,计算公式如公式(2):其中,0≤ati≤1, 表示所有目标的注意系数之和为1;
S63、基于当前时刻的视频帧中第i个目标的骨骼特征编码向量mti和当前时刻的视频帧中第i个目标的注意系数ati,计算出当前时刻的视频帧中骨骼注意融合特征,计算公式如公式(3):其中,ft表示当前时刻的视频帧中骨骼注意融合特征。
4.如权利要求1所述的一种基于视觉感知的异常事件检测方法,其特征在于:在步骤S8中,获得所述当前时刻的视频帧中的融合特征的计算公式如公式(4):其中,dt表示当前时刻的视频帧中的融合特征,conv表示卷积操作,nti表示当前时刻的视频帧中第i个目标的生物激励的视觉显著性特征;
获得所述最终的异常行为分类结果具体步骤如下:
S81、将所述融合特征输入到解码LSTM中,获得当前时刻的视频帧的时间状态ht,计算公式如公式(5):ht=LSTM(ht-1,dt) (5)
其中,ht-1表示前一时刻的视频帧的时间状态;
S82、将所述当前时刻的视频帧的时间状态输入softmax层,获得所述当前时刻的视频帧中的异常行为分类结果 计算公式如公式(6):其中, Wc表示全连接网络层中ht的权重矩阵。
5.如权利要求1所述的一种基于视觉感知的异常事件检测方法,其特征在于:在步骤S9中,根据步骤S8中所述当前时刻的视频帧中的异常行为分类结果,用来判断当前时刻的视频帧中有无异常,具体判断准则为:当 时,当前时刻的视频帧中有异常,当时,当前时刻的视频帧中无异常;在当前时刻的视频帧中有异常的情况下,比较当前时刻的视频帧中的每个目标的注意系数,找出当前时刻的视频帧中注意系数最大的目标序号,所述注意系数最大的目标序号对应的位置即为当前时刻的视频帧中异常行为发生的位置。
6.一种基于视觉感知的异常事件检测系统,其特征在于,包括:
视频帧获取单元,用于实时获取待检测现场的监控视频,并提取所述待检测现场的监控视频的视频帧;
视频特征获取单元,用于将当前时刻的视频帧输入到YOLOv3网络模型中,获取当前时刻的视频帧的视频特征,并检测出所述当前时刻的视频帧中每一个目标所在的位置,用矩形框将所述位置框出;其中,一个矩形框将一个目标所在的位置框出;
目标骨骼信息获取单元,用于将所述框出目标位置的矩形框均提取出来,并对每个矩形框中对应的目标分别进行人体姿态估计,获得当前时刻的视频帧中每个目标的骨骼信息;
目标骨骼特征获取单元,用于将所述骨骼信息输入到训练好的VGG19网络模型中,获得当前时刻的视频帧中每个目标的骨骼特征;
骨骼特征编码向量获取单元,用于将所述骨骼特征输入到双向长短时记忆网络中,获得当前时刻的视频帧中每个目标的骨骼特征编码向量;
显著性特征获取单元,用于将前一时刻的视频帧中解码LSTM输出的时间状态与所述骨骼特征编码向量输入注意机制中,获得当前时刻的视频帧中注意系数和骨骼注意融合特征;
生物激励的视觉显著性特征获取单元,用于将当前时刻的视频帧输入到基于初级视皮层V1区的层级模型中,分别模拟视皮层中简单细胞层和复杂细胞层,获得当前时刻的视频帧中每个目标的生物激励的视觉显著性特征;所述基于初级视皮层V1区的层级模型包含两层层级结构的不变特征提取模型;
异常行为分类结果获取单元,用于将所述骨骼注意融合特征和所述视觉显著性特征,获得当前时刻的视频帧中的融合特征,基于所述融合特征,获得当前时刻的视频帧中的异常行为分类结果;
异常行为发生的位置获取单元,用于基于所述注意系数和所述异常行为分类结果,获得当前时刻的视频帧中分析异常行为时注意系数最大的目标序号,从而获得当前时刻的视频帧中异常行为发生的位置。
7.如权利要求6所述的一种基于视觉感知的异常事件检测系统,其特征在于:所述目标骨骼信息获取单元中,采用openpose模型对每个矩形框中对应的目标分别进行人体姿态估计。
8.如权利要求6所述的一种基于视觉感知的异常事件检测系统,其特征在于:所述显著性特征获取单元中,当前时刻的视频帧中骨骼注意融合特征的步骤如下:S61、计算出当前时刻的视频帧中第i个目标的骨骼特征编码向量与前一时刻的视频帧中的时间状态之间的相关系数eti,计算公式如公式(7):eti=φ(ht-1,mti)=VT×tanh(Waht-1+Wbmti) (7)其中,t表示当前时刻,t-1表示前一时刻,i表示目标的序号,i∈{1,2,...,s},s表示目标的总数,φ表示一个全连接网络层,ht-1表示前一时刻的视频帧的时间状态,mti表示当前时刻的频帧中第i个目标的骨骼特征编码向量,Wa表示全连接网络层中ht-1的权重矩阵,Wb表T示全连接网络层中mti的权重矩阵,V表示全连接网络层中用来融合ht-1和mti的权重矩阵,tanh为激活函数;
S62、将相关系数eti输入softmax层,进行归一化操作,计算出当前时刻的视频帧中的第i个目标的注意系数ati,计算公式如公式(8):其中,0≤ati≤1, 表示所有目标的注意系数之和为1;
S63、基于当前时刻的视频帧中第i个目标的骨骼特征编码向量mti和当前时刻的视频帧中第i个目标的注意系数ati,计算出当前时刻的视频帧中骨骼注意融合特征,计算公式如公式(9):其中,ft表示当前时刻的视频帧中骨骼注意融合特征。
9.如权利要求4所述的一种基于视觉感知的异常事件检测系统,其特征在于:所述异常行为分类结果获取单元中,获得所述当前时刻的视频帧中的融合特征的计算公式如公式(10):其中,dt表示当前时刻的视频帧中的融合特征,conv表示卷积操作,nti表示当前时刻的视频帧中第i个目标的生物激励的视觉显著性特征;
获得所述最终的异常行为分类结果具体步骤如下:
S81、将所述融合特征输入到解码LSTM中,获得当前时刻的视频帧的时间状态ht,计算公式如公式(11):ht=LSTM(ht-1,dt) (11)
其中,ht-1表示前一时刻的视频帧的时间状态;
S82、将所述当前时刻的视频帧的时间状态输入softmax层,获得所述当前时刻的视频帧中的异常行为分类结果 计算公式如公式(12):其中, Wc表示全连接网络层中ht的权重矩阵。
10.如权利要求1所述的一种基于视觉感知的异常事件检测方法,其特征在于:所述异常行为发生的位置获取单元中,基于所述当前时刻的视频帧中的异常行为分类结果,用来判断当前时刻的视频帧中有无异常,具体判断准则为:当 时,当前时刻的视频帧中有异常,当 时,当前时刻的视频帧中无异常;在当前时刻的视频帧中有异常的情况下,比较当前时刻的视频帧中的每个目标的注意系数,找出当前时刻的视频帧中注意系数最大的目标序号,所述注意系数最大的目标序号对应的位置即为当前时刻的视频帧中异常行为发生的位置。