1.一种跨层多模型特征融合与基于卷积解码的图像描述方法,其特征在于:包括以下步骤:
S1.首先在视觉模块,对每个VGG16结构中实现低层与高层的跨层图像特征融合,然后再将三个VGG16视觉特征提取模型得到的特征图进行平均融合,同时将图像所对应的句子中包含的每个单词映射到具有De维度的嵌入空间中,得到它们的嵌入向量序列,然后经过文本特征提取模型中的因果卷积操作获得最终文本特征;
S2.将S1得到的视觉特征向量和文本特征向量注入到Attention模块中,通过构造分值图,计算得到视觉与文本融合匹配的注意力向量,并以此将视觉模块和语言模块连接起来;
S3.然后将S2中具有文本信息与图像不同区域之间相关性的注意力向量和S1中得到的文本特征向量和进行相加融合;
S4.再将S3得到的结果经过预测模块,即使用激活函数后输入到另一个1×1的卷积层,其通道数为单词本的大小,最后通过softmax层得到下一个单词的预测概率,重复S1~S4步骤,直到最终生成一个完整的描述句子。
2.根据权利要求1所述的一种跨层多模型特征融合与基于卷积解码的图像描述方法,其特征在于:所述视觉模块中设置有三个VGG16结构且三个VGG16结构为图像视觉特征的提取模块,所述每个VGG16结构中都添加有跨层融合结构。
3.根据权利要求1所述的一种跨层多模型特征融合与基于卷积解码的图像描述方法,其特征在于:所述文本特征提取模型采用了用于机器翻译的卷积架构和用于音频生成的卷积架构,所述因果卷积操作由6层因果卷积层构成且因果卷积的卷积核宽度为3。
4.根据权利要求1所述的一种跨层多模型特征融合与基于卷积解码的图像描述方法,其特征在于:所述Attention模块为注意力机制。
5.根据权利要求1所述的一种跨层多模型特征融合与基于卷积解码的图像描述方法,其特征在于:所述预测模块为一个浅层神经网络。