1.一种基于HOIRM和局部特征融合的行为识别方法,其特征在于:所述行为识别方法包括以下步骤:
步骤1,对所有视频进行时空兴趣点检测;
步骤2,使用3D HOG和3D HOF描述子对检测到的所有时空兴趣点进行特征向量描述;
步骤3,根据每一帧的时空兴趣点分布情况提取兴趣点区域ROI,提取视频的兴趣点区域的过程为:计算每一帧所有兴趣点空间的质心位置 其中横纵坐标的计算方式分别为 xi和yi分别表示当前帧第i个兴趣点空间位置的横、纵坐标,n表示当前帧的兴趣点数,计算所有兴趣点到质心的距离di,选出最大距离dmax,dmax=max{d1,d2,......,dn},定义一个以质心 为圆心,最大距离dmax为半径的圆,以质心 为中心,圆的直径为边长,得到一个正方形,即圆的外切矩形,该矩形即为所在帧的兴趣点区域;
步骤4,根据ROI提取视频的兴趣点区域运动方向直方图特征HOIRM;
HOIRM特征提取过程为:选择兴趣点区域的质心 作为代表点统一描述兴趣点区域的运动情况,由几何关系可得,在任意时刻t,ROI质心 的方向角 为:其中 和 表示当前帧的质心坐标, 和 表示前一帧的
质心坐标,将方向角 量化至K个区间,取K=9,每个区间大小为20°,9个区间分别为:0°~20°,20°~40°,…,140°~160°,160°~180°,分别统计落入每个区间中的方向个数,形成兴趣点区域运动方向直方图,在直方图中以百分比的形式表示,计算其中 表示在方向角区间θi内对应的视频帧数,NUM(frames)表示该视频总帧数,即表示HOIRM在该方向角区间内对应的视频帧数占该视频总帧数的比例;
步骤5,兴趣点区域的HOIRM特征与步骤2中由3D HOG和3D HOF描述兴趣点获得的特征向量进行特征融合;
步骤6,对训练视频多特征融合后的特征向量构建词袋模型,即对训练视频所有的特征向量进行K-Means聚类生成视觉词典,并用视觉词典重新描述特征向量;
步骤7,用步骤6构建的视觉词典描述测试视频的特征向量;
步骤8,用步骤6得到的特征向量训练支持向量机分类器,用已训练的支持向量机分类器对步骤7得到的测试视频特征向量分类,得到测试视频行为类别。
2.如权利要求1所述的一种基于HOIRM和局部特征融合的行为识别方法,其特征在于:
所述步骤1中,采用Bregonzio兴趣点检测算法对视频进行兴趣点检测,得到时空兴趣点集,根据获取的每一个时空兴趣点(x,y,t)确定其所在的帧以及在整段视频序列中的空间位置,其中x,y表示兴趣点在每一帧上的坐标位置,t表示当前所在帧的时间。
3.如权利要求1或2所述的一种基于HOIRM和局部特征融合的行为识别方法,其特征在于:所述步骤2中,使用3D HOG和3D HOF描述子进行联合描述的过程为:以每一个时空兴趣点(x,y,t)为中心,构建空间立方体Patch,简称P,其中大小为(H,W,T),H、W、T分别表示立方体的高、宽、长,分别用3D HOG和3D HOF特征描述子进行描述,得到时空特征向量L,以空间立方体P的8个顶点为中心,分别构建跟P相同大小的空间立方体P1,P2,…,P8,同样,分别采用3D HOG和3D HOF特征描述子进行描述,得到时空特征向量L1,L2,…,L8,将得到的时空特征向量L跟L1,L2,…,L8拼接在一起,得到9个空间立方体的3D HOG和3D HOF特征,作为兴趣点(x,y,t)的时空描述子。
4.如权利要求1或2所述的一种基于HOIRM和局部特征融合的行为识别方法,其特征在于:所述步骤5中,基于时空兴趣点区域的运动方向特征HOIRM与3D HOG、3D HOF描述的特征向量的融合过程为:采用累加直方图对每一帧图像的特征进行融合,所用公式为其中,ch(i)表示累加直方图的第i个区间,h(i)表示特征直方图的第i个区间,n表示帧的数目,最后得到的特征向量可以表示为F={ch3DHOG,ch3DHOF,chHOIRM},其中,ch3DHOG,ch3DHOF和chHOIRM分别代表3D HOG、3D HOF和HOIRM特征的累加直方图。
5.如权利要求1或2所述的一种基于HOIRM和局部特征融合的行为识别方法,其特征在于:所述步骤6中,构建词袋模型的过程为:首先指定视觉词典容量的大小为K,K的值为接下去使用的K-Means聚类算法的聚类中心数目,为了构建一个具有K个单词的视觉词典,将所有训练视频的特征向量组合在一起,构建一个特征向量矩阵并进行K-Means聚类获得K个聚类中心,即K个关键特征,为每个训练视频分配一个K维的向量,且初始化为0,这个向量的每一维对应着视觉词典中的每个单词,计算每个训练视频对应的特征向量距离K个关键特征的距离,假定与第i个关键特征的距离最近,则在对应初始化为0的K维向量的第i个位置加
1,这样就得到一个K维的特征向量,并用该特征向量表征输入视频的特征,将所有通过词典重新描述过的视频对应的特征向量进行标记,在每一类别的最后一维后面添加一维用于标记该视频的类别,为接下去的模型训练做准备。