1.一种基于深度学习的图像描述方法,其特征在于由下述步骤组成:(1)将图像数据集分为训练集和测试集,训练集由图像和图像对应的标注语句组成,测试集由图像组成;
(2)构建图像描述模型
图像描述模型由空间变换网络、可变形卷积残差网络、双向的自约束门限递归网络串联构成,所述的空间变换网络和可变形卷积残差网络用于提取图像的特征,双向的自约束门限递归网络用于构建语言模型并生成图像对应的语句;
所述的自约束门限递归网络由门限递归网络的输入和输出分别添加LReLU激活函数构成,所述的自约束门限递归网络的公式如下:r=σ(Wrxt+UrφLReLU(ht‑1)) (1)z=σ(Wzxt+UzφLReLU(ht‑1)) (2)Outputt=φLReLU(ht) (5)
式中r为重置门,Wr和Ur为重置门权重矩阵,xt为当前时刻网络的输入,σ为sigmoid激活函数,φLReLU为LReLU激活函数,z为更新门,Wz和Uz为更新门权重矩阵,ht‑1为前一时刻的输出状态,为当前时刻的隐藏状态信息,Wh和Uh为隐藏状态权重矩阵,ht为当前时刻的状态信息, 表示向量对应元素相乘的运算,Outputt为t时刻网络的输出;
(3)在ImageNet数据集上训练完成残差网络预训练模型,加载残差网络预训练模型参数至可变形卷积残差网络中;
(4)将训练集中的图像送入空间变换网络中,空间变换网络的输出结果送到可变形卷积残差网络,可变形卷积残差网络输出图像的特征向量;
(5)采用one‑hot编码方式对训练集中图像对应的描述语句进行编码,生成图像对应的文本序列;
(6)将训练集中图像的特征向量和文本序列传输至双向的自约束门限递归网络中,完成语言模型的构建生成图像对应的语句;
(7)使用AdamW优化算法对图像描述模型进行训练;
(8)将测试集中的一幅图像输入到训练完成的图像描述模型中,输出图像对应的描述语句。
2.根据权利要求1所述的基于深度学习的图像描述方法,其特征在于:所述的步骤(2)中可变形卷积残差网络结构为残差网络的第五卷积组中所有卷积采样点均加一个偏移向量。