1.一种基于全卷积网络的视频关键帧提取方法,其特征在于,所述方法包括:将原始视频输入到预训练的卷积网络中进行特征提取,输出特征向量X;所述卷积网络中不具有全连接层;
将所述特征向量X输入交叉注意力模块,经过关联操作和聚合操作,输出特征向量H';
将所述特征向量H'和所述卷积网络的低层网络的输出特征向量F同时输入通道注意力模块,输出特征向量H";
利用解码器对所述特征向量H"进行特征重建,获得最终重建特征,并基于所述最终重建特征获取视频帧,确定为视频关键帧;所述解码器采用转置卷积层实现;
所述卷积网络为残差网络,所述残差网络的最后一层为1*1的卷积层,所述残差网络中的部分卷积层为空洞卷积层;
将所述特征向量H'和所述卷积网络的低层网络的输出特征向量F同时输入通道注意力模块,输出特征向量H",具体为:将所述特征向量H'和所述特征向量F拼接,形成拼接后的特征向量;
将所述拼接后的特征向量做全局平均池化,获得平均池化后的特征向量;
将所述平均池化后的特征向量执行卷积操作和激活操作,获得卷积后的特征向量;
将所述卷积后的特征向量与所述特征向量F相乘,获得特征向量H"并输出。
2.根据权利要求1所述的基于全卷积网络的视频关键帧提取方法,其特征在于,在训练所述残差网络时,在紧邻所述最后一层网络层的倒数第二层网络层中增加辅助损失函数loss2,利用所述辅助损失函数loss2与所述残差网络的主损失函数loss1共同作为损失函数进行所述残差网络的训练。
3.根据权利要求2所述的基于全卷积网络的视频关键帧提取方法,其特征在于,所述残差网络的损失函数为loss,满足:loss=loss1+α*loss2;α为权重,0<α<1。
4.根据权利要求1所述的基于全卷积网络的视频关键帧提取方法,其特征在于,对所述特征向量H"进行特征重建,获得最终重建特征,具体为:对所述特征向量H"使用转置卷积重建,获得原始重建特征,将所述原始重建特征与所述特征向量F合并,合并后的特征向量再次使用转置卷积重建,获得最终重建特征。
5.根据权利要求1至4中任一项所述的基于全卷积网络的视频关键帧提取方法,其特征在于,所述解码器采用多样性奖励函数和代表性函数作为损失函数进行训练学习。
6.根据权利要求1至4中任一项所述的基于全卷积网络的视频关键帧提取方法,其特征在于,将所述特征向量X输入交叉注意力模块,具体为:首先,将所述特征向量X降维处理,获得降维后的特征向量H;
然后,将所述降维后的特征向量H输入交叉注意力模块。
7.一种电子设备,包括存储器和处理器,所述存储器上存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现上述权利要求1至6中任一项所述的基于全卷积网络的视频关键帧提取方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现上述权利要求1至6中任一项所述的基于全卷积网络的视频关键帧提取方法。