1.一种基于迁移学习的短视频语义标注方法,其特征在于,包括以下步骤:S1、提取短视频的关键帧;
S2、对关键帧进行区域检测,得到语义区域图像;
S3、以图像描述模型为基础,对语义区域图像进行语义标注。
2.根据权利要求1所述的基于迁移学习的短视频语义标注方法,其特征在于,所述步骤S1具体为:
S1.1、采用图像处理库PIL中Image模块的open函数读取短视频的视频帧;
S1.2、调用histogram函数获取视频帧的颜色直方图;
S1.3、根据MPEG‑4编码标准,提取短视频的所有I帧;
S1.4、将巴氏距离作为两张图片之间的相似度,计算每张I帧的颜色直方图与下一张相邻I帧的颜色直方图之间的相似度;
S1.5、判断相似度是否小于预先设定的阈值,若是,则当前帧为关键帧,否则当前帧不是关键帧;
S1.6、遍历所有I帧,得到若干关键帧。
3.根据权利要求1所述的基于迁移学习的短视频语义标注方法,其特征在于,所述步骤S2具体为:
S2.1、构建区域检测模型;
S2.2、采用Visual Genome数据集训练区域检测模型;
S2.3、将关键帧输入训练后的区域检测模型,得到语义区域图像。
4.根据权利要求3所述的基于迁移学习的短视频语义标注方法,其特征在于,所述步骤S2.1中区域检测模型包括输入层、第一卷积层、第一最大池化层、第一卷积块、第二卷积块、第三卷积块、第一额外残差块、第二额外残差块、第三额外残差块、第四额外残差块、第五额外残差块、第六额外残差块、第二卷积层、坐标预测卷积块、类别预测卷积块以及输出层;
所述输入层、第一卷积层、第一最大池化层、第一卷积块、第二卷积块以及第三卷积块依次连接,所述第二卷积块的输出端与第一额外残差块的输入端连接,所述第三卷积块的输出端与第二额外残差块的输入端连接,所述第二额外残差块、第三额外残差块、第四额外残差块、第五额外残差块、第六额外残差块以及第二卷积层依次连接,所述第一额外残差块、第二额外残差块、第三额外残差块、第四额外残差块、第五额外残差块以及第二卷积层的输出端均与坐标预测卷积块的输入端连接,所述第一额外残差块、第二额外残差块、第三额外残差块、第四额外残差块、第五额外残差块以及第二卷积层的输出端均与类别预测卷积块的输入端连接,所述坐标预测卷积块以及类别预测卷积块的输出端均与输出层连接。
5.根据权利要求1所述的基于迁移学习的短视频语义标注方法,其特征在于,所述步骤S3具体为:
S3.1、构建图像描述模型;
S3.2、将语义区域图像输入图像描述模型,得到语义信息;
S3.3、采用pke库中的YAKE模型提取语义信息中的关键短语,并筛选出现频率最高的N条关键短语;
S3.4、将语义信息传输至自然语言处理库NLTK的词性标记模块中,筛选语义信息中的名词单数形式、名词复数形式、专有名词以及人称代词,并进行去重处理,得到词组;
S3.5、选取步骤S3.3中N条关键短语与步骤S3.4中词组之间的词汇交集,得到关键词;
S3.6、将含有关键词的关键短语进行组合,得到短视频的语义标注。
6.根据权利要求5所述的基于迁移学习的短视频语义标注方法,其特征在于,所述步骤S3.1中图像描述模型包括输入层、第三卷积层、第二最大池化层、第四卷积块、第五卷积块、第六卷积块、第七卷积块、自适应池化层、第一线性层、第二线性层、第三线性层、Relu激活层、LSTM结构层以及输出层;
所述输入层、第三卷积层、第二最大池化层、第四卷积块、第五卷积块、第六卷积块、第七卷积块、自适应池化层、第一线性层、第二线性层以及Relu激活层依次连接,所述Relu激活层的输出与LSTM结构层的输入连接,所述LSTM结构层的输出分别与第三线性层的输入和输出层连接,所述第三线性层的输出与第二线性层的输入连接,所述自适应池化层的输出与Relu激活层的输出进行矩阵相乘并将相乘结果输入至LSTM结构层。