1.基于图像增强和3D卷积神经网络的视频行为识别方法,其特征在于,包括以下步骤:
S1:将输入的原始视频序列切分成帧,对各个帧图片进行预处理,并将其分别划分至训练集与测试集;
S2:将训练集图片输入行为区域增强网络进行训练,获得相应的掩码处理后图片,从而得到人物行为信息增强的图像;
S3:使用掩码处理后的图片序列训练3D卷积神经网络;输入测试集图片,获得该分支网络的测试集分类概率;
S4:将训练集图片输入3D卷积神经网络进行训练;输入测试集图片,得到该分支网络的测试集分类概率;
S5:将所得到的两分支网络的分类概率进行支持向量机模型训练,并得到最终的测试集检测结果。
2.根据权利要求1所述的基于图像增强和3D卷积神经网络的视频行为识别方法,其特征在于:步骤S1包括将原始视频序列按照时间顺序切分成帧,即切分为时间上连续分布的图片序列;将切分好的图片序列调整为适合3D卷积神经网络训练的统一图片格式。
3.根据权利要求1所述的基于图像增强和3D卷积神经网络的视频行为识别方法,其特征在于:步骤S2具体包括对图片序列中的人物行为区域进行掩码处理,增强图片中的行为动作信息;将图片序列当中的动作区域进行识别,并进行像素级标注处理,利用图像处理方法得到目标图片;将切分完成的原始视频帧图片序列输入行为区域增强网络进行训练,以最小化行为区域增强网络的损失函数为目标,进行像素级的分类和掩码处理,获得相应的掩码处理后图片,从而得到人物行为信息增强的图像。
4.根据权利要求3所述的基于图像增强和3D卷积神经网络的视频行为识别方法,其特征在于:所述行为区域增强网络的损失函数计算包括:Loss=Lcls+Lseg
其中,Loss表示总损失函数,Lcls表示分类的损失函数,Lseg表示切分的损失函数,CE(θ)表示交叉熵损失函数,yi表示第i个训练集图片的标签,N表示训练集图像的总数;表示估计值,即预测出的标签。
5.根据权利要求1所述的基于图像增强和3D卷积神经网络的视频行为识别方法,其特征在于:步骤S3具体包括输入的掩码图片序列色彩空间为红R、绿G、蓝B,其中掩码部分的颜色为统一的颜色;将掩码图片序列按照输入格式统一标准化处理,并输入到3D卷积神经网络中,进行训练,获取该图片序列在时间序列上和空间序列的双重信息;通过3D卷积与3D池化,经过全连接层和Softmax层,构建分类网络,从而得到各行为分类的概率。
6.根据权利要求1所述的基于图像增强和3D卷积神经网络的视频行为识别方法,其特征在于:步骤S4具体包括将训练集图片直接输入进3D卷积神经网络并训练该卷积神经网络,依次经过3D卷积,3D池化,全连接层和Softmax层,得到其特征图和在时间序列上和空间序列的双重信息;输入测试集图片,得到测试集的分类概率;其中,该3D卷积神经网络中第I层卷积核表示为WI×HI×XI,XI为第I层中输入的图片序列数,WI×HI对应为第I层空间中的长宽大小。
7.根据权利要求1所述的基于图像增强和3D卷积神经网络的视频行为识别方法,其特征在于:步骤S5具体包括获取两分支神经网络训练后的测试集分类概率,总神经网络的两分支依次为经过图像增强的3D卷积神经网络和原始图片训练而得的3D卷积神经网络;将分类的概率进行支持向量机模型的训练或根据权重融合来获取最终概率;所述权重融合的方法包括最大值融合,最小值融合和平均值融合;支持向量机模型法通过各个分类概率与对应标签进行学习,得到最优权重,最终识别概率计算方式包括为:其中,P为样本的最终预测概率, 为第I个样本在第一分支上的概率,即使用掩码处理后的图片序列训练3D卷积神经网络分支; 为第I个样本在第二分支上的概率,即使用训练集图片训练3D卷积神经网络分支;w1和w2分别为训练支持向量机模型得到的最优权重;取输出概率最大的类别作为每个样本的最终识别结果。