1.基于门控融合单元的特征融合组群识别方法,其特征在于,包括以下步骤:步骤A、针对待识别视频,跟踪视频中每个人的边界框信息和场景级图片特征,并分别输入到CNN模型进行视觉特征提取,获得个人视觉特征和场景级视觉特征;
步骤B、对组群活动中的关键人物进行建模,并基于LSTM进行个人和场景的时序特征提取,具体包括:
步骤B1、对关键人物进行建模:提取光流特征,通过堆叠每个人的光流图像并测量每个人的运动强度,根据运动强度按照从大到小的方式对步骤A中提取的个人视觉特征进行排序,以作为LSTM网络的输入;
步骤B2、基于LSTM网络提取时序特征:分别将场景级视觉特征和排序后的个人视觉特征输入到LSTM网络进行时序特征提取,以得到场景级时序特征和个人时序特征,具体包括:所述LSTM网络的输入门it、遗忘门ft、输出门ot和输入调制门 以及存储单元Ct的定义如下:
ot=σ(Wox[ht‑1,θt]+bo)ht=ot*tanh(Ct)其中,σ(Θ)为一个激活函数,W·x是权重矩阵,b∧是偏置向量,*表示元素乘,ht是隐藏状态,包含该人在第t时刻的动态特征;
n
则通过LSTM网络获得的场景级时序特征 和个人时序特征Z表示如下:步骤C、将步骤B中提取的场景级时序特征和个人时序特征信息输入到门控融合单元进行特征融合,以获得人与人之间和人与场景之间的交互关系,进而实现组群行为识别,包括以下步骤:
(1)将LSTM网络提取的个人时序特征输入到具有tanh激活函数的神经元,并得到其编n
码的特征h:
n n n
h=tanh(WZ)
n
其中W是编码的权重向量;
(2)门控融合单元中用符号σ表示门神经元,使用sigmoid函数设计,考虑到全局特性,与第n个人连接的门神经元会接收所有的时序特征作为输入,从而确定第n个人的门控输出n
q:
n n
(3)将编码的特征h和门控输出q 相乘,即个人时序特征和其他所有人的时序特征进行连接,表示人与人之间的交互关系:n n n
r=h×q
n
其中r表示第n个人的门控单元的输出;
n
同理,将场景时序特征 做为输入,生成场景级的门控输出 并将r 和 做如下处理做为门控融合单元的总输出:其中,j表示第j个人体目标N表示场景中人体目标的总数;
(4)将门控融合单元的总输出C作为全连接层的输入,表示当前组群的行为特征:y=FC(C)
连接soft max分类器进行分类输出:i
Y=soft max(y)i
其中Y为组群行为分类预测的标签;
(5)模型训练
基于交叉熵损失函数训练softmax分类器:G i
其中Y表示分类的真实标签,Y表示模型的预测标签,通过训练模型最小化L值,使模型性能达到最优,进而将最终训练所得到的预测标签作为组群识别结果。
2.根据权利要求1所述的基于门控融合单元的特征融合组群识别方法,其特征在于:所述步骤A中进行视觉特征提取具体通过以下方式实现:基于DSST跟踪算法对组群活动中的个人信息进行跟踪,将跟踪到的边界框作为CNN模型的输入;设所跟踪到的个人边界框 N代表场景中的人数,场景输入为将跟踪到的个人边界框与场景输入连接起来作为整体CNN模型的输入IG,即:
提取的场景级视觉特征为:提取的个人视觉特征为:
3.根据权利要求1所述的基于门控融合单元的特征融合组群识别方法,其特征在于:所述步骤B1具体通过以下方式实现:将待识别视频划分为T帧,每一帧的分辨率是w*h,在第t帧视频中使用 和分别表示在点(u,v)处的水平和垂直位移矢量,u=1,2,3,...,w,v=1,2,3,...,h,按如下方式堆叠连续T帧的光流向量 和k
其中i=1,2,3,.....,T,SF (u,v,c),c=1,2,3,...,2T,表示在一个完整的T帧视频序列上对点(u,v)处第k个人的运动进行编码,则第k个人的运动强度定义如下:k
其中 表示第k个人在第t帧的运动强度,MI表示整个视频中第k个人的运动强度。