1.一种基于改进的VLAD算法的视频分类方法,其特征在于,所述算法包括:
去除深度残差网络结构的基础网络的全连接层与最后一层池化层,以输入视频中的视频帧至深度残差网络结构得到特征图;对特征图进行上采样反卷积操作;输入视频中的视频帧至深度残差网络结构得到特征图的特征格式为H×W×C×N;
训练NetVLAD网络结构,以使特征图输入NetVLAD网络结构以一段时间内的视频帧为目标进行局部聚合特征,得到局部特征向量和聚类中心区域;根据局部特征向量通过卷积操作得到软分配权重,将局部特征向量划分至相应对聚类中心区域,以计算局部特征描述子与聚类中心区域对的残差分布;
构建聚合特征矩阵;其中的构建聚合特征矩阵的过程包括:
对视频帧生成的特征图进行卷积操作得到软分配权重,输出预设数量的权重信息;根据权重信息构建聚合特征矩阵;其中,根据权重信息构建聚合特征矩阵具体包括:通过损失函数处理所述权重信息,输出与权重信息数量相同个数的软分配权重,对其进行残差加权与残差求和的处理,构建聚合特征矩阵;
根据对特征图进行非局部描述特征处理,获得非局部相关区域,具体包括:对特征图进行三次的卷积操作,输出三个压缩特征图;所述压缩特征图包括第一压缩特征图、第二压缩特征图和第三压缩特征图,其中,第一压缩特征图的特征格式为H×W×(N×C/2),第二压缩特征图的特征格式为(N×C/2)×(H×W),第三压缩特征图为H×W×(N×C/2);以任一个压缩特征图的任一特征向量为乘数、另一压缩特征图的任一特征向量为乘数地两两矩阵相乘,得到关联强度矩阵;将关联强度矩阵输入损失函数后与第三压缩特征图进行矩阵相乘,输出特征图的非局部相关区域;
将软分配权重和非局部相关区域进行点乘,得到聚类区域相关区域;
将聚类区域相关区域进行卷积操作降维压缩成聚类区域的非局部相关区域,将聚类区域的非局部相关区域串行拼接在聚合特征矩阵中得到最终特征向量;
预建立最终特征向量与视频种类的映射集;
根据最终特征向量确定输入的视频的视频种类。
2.根据权利要求1所述的基于改进的VLAD算法的视频分类方法,其特征在于,所述构建聚合特征矩阵的过程具体包括:对根据视频帧生成的特征图进行卷积操作得到软分配权重,输出(K+G)个权重信息;对每个权重信息各自求和后将其中最小的G个权重信息去除,根据剩余的K个权重信息构建聚合特征矩阵;其中,根据剩余的K个权重信息构建聚合特征矩阵具体包括:通过损失函数处理所述剩余的K个权重信息,输出K个软分配权重,对其进行残差加权与残差求和的处理,构建聚合特征矩阵。
3.根据权利要求2所述的基于改进的VLAD算法的视频分类方法,其特征在于,根据剩余的K个权重信息构建聚合特征矩阵具体还包括归一化处理,具体如下:通过损失函数处理所述剩余的K个权重信息,输出K个软分配权重,对其进行残差加权与残差求和的处理后进行归一化处理,构建聚合特征矩阵。
4.根据权利要求1所述的基于改进的VLAD算法的视频分类方法,其特征在于,所述深度残差网络结构为ResNet101深度残差网络。
5.根据权利要求1所述的基于改进的VLAD算法的视频分类方法,其特征在于,所述损失函数为Softmax函数。