1.一种基于视频图像处理的课堂行为分析方法,其特征在于,包括如下步骤:
步骤1:构建包括视频分流模块、灰度视频模块、缩放视频模块、backbone模块、softmax层及Concat层的视频目标分析网络VTAN,并结合训练数据集Sample通过BP反向传播算法对其进行训练,其中Sample={(Vi,labeli)|i=1,2,3,…,ns},Vi={Iij|j=1,2,3,…mij},Vi表示第i段课堂行为训练视频,labeli为视频Vi对应的行为标签,ns为训练样本的数量,Iij表示视频Vi中第j帧视频帧图像,mij表示第i段视频中包含的视频帧数;
步骤2:读入视频帧数量、宽度和高度分别为Qk、Wk和Hk的视频段V;
步骤3:对视频段V进行均匀采样,得到长度为lv的视频段Vs;
步骤4:将视频段Vs输入到训练好的视频目标分析网络VTAN中进行前向传播,具体步骤如下:步骤4.1:将视频段Vs中的所有视频帧图像按缩放比例α进行缩放得视频段U,将Vs中所有的视频帧图像进行灰度化得视频段W;其中α表示预先给定的视频图像缩放比例;
步骤4.2:将视频段U输入到网络VTAN中的缩放视频模块中,并进行前向传播,并输出网络中间特征Fu;
步骤4.3:将视频段W输入到网络VTAN中的灰度视频模块中,并进行前向传播;该视频段W依次通过2个三维卷积层和三维最大池化层组成的块结构和1个一维卷积层,并输出网络中间特征Fw;
步骤4.4:将网络中间特征Fu和Fw通过Concat层进行融合,并将融合特征输入1个三维卷积层中,进行前向传播得融合网络特征Ff;
步骤4.5:将Ff输入到由8层残差层组成的backbone网络结构进行前向传播,并将其输出结果输入到Softmax层中,输出各个行为的置信度集合C={(acti,ci)|i=1,2,3,…,na},其中acti表示第i类行为,ci表示行为acti对应的置信度,na代表分类行为的类别数;
步骤5:取集合C中最大置信度cmax,判断其对应的行为actmax为最可能行为类型;若满足式(1),则视频段V的行为为actmax,反之,视频段V的行为无法判断;
cmax≥θ (1)
θ表示实现给定的行为判断阈值。
2.根据权利要求1所述的一种基于视频图像处理的课堂行为分析方法,其特征在于,所述步骤1中的视频目标分析网络VTAN中缩放视频模块包含3个三维卷积层,灰度视频模块包含2个块结构和1个一维卷积层,其中块结构包括三维卷积层和三维最大池化层组成。