1.一种融合图像标签信息的手绘图像实时检索方法,其特征在于,包括:
向完成训练的改进的神经网络模型输入目标图像的手绘草图和标签信息,实时检索并获得检索结果;
所述改进的神经网络模型,包括f1、f2、f3和fex,f1为预训练网络,f2为注意力层,f3为降维层,fex为标签提取层;
改进的神经网络模型的训练过程包括以下步骤:
S1:构建训练集,训练集包括由多张图像及其对应收回的完整草图组成的图像集和图像对应的扩充标签集,图像对应的扩充标签集由该图像所有标签信息组成;
S2:训练中每一步选取图像集中的一张图像作为目标图像,利用该图像对应的手绘草图,训练神经网络模型的f1、f2、f3三个分支,训练完成后固定f1、f2参数,同时训练完成后通过f1、f2、f3提取所有目标图像的嵌入向量;
S3:将图像集中的目标图像输入进训练好的f1中,得到目标图像的特征图,将特征图输入进fex,预测目标图像的标签,根据扩充标签集中的标签信息,采用交叉熵损失函数,训练fex,训练完成后固定参数;
S4:将图像集中每一张图像的完整草图按照绘图的笔画顺序渲染为多张草图,每一张草图渲染完成后组成该图像集的草图分支集,通过f1、f2、f3提取草图分支的嵌入向量;
S5:采用三重损失函数计算草图分支中每一张图片的嵌入向量和目标图像的嵌入向量误差,将该误差进行反向传播,以逼近目标图像、远离非目标图像为目标,调整模型中f3的参数;
S6:获取下一张目标图像的草图分支,重复上述步骤S4‑S6,直至模型达到训练次数上限。
2.根据权利要求1所述的一种融合图像标签信息的手绘图像实时检索方法,其特征在于,对训练集中的图像设置标签L={l1,l2,...,ln,...,lN},用于训练标签提取层fex,其交叉熵损失Loss表达式为:其中K表示标签包含的类别总数;N表示样本总数;n表示第n个样本;pnc表示样本n属于c类的概率;lnc表示样本n的c类的正确概率标签。
3.根据权利要求1所述的一种融合图像标签信息的手绘图像实时检索方法,其特征在于,采用三重损失函数计算草图分支中每一张图片的嵌入向量和目标图像的嵌入向量误差,其三重损失Loss的表达式为:Loss=max(d(VSi,Vp)‑d(VSi,Vn)+α,0)
其中,VSi表示草图分支中第i张图片的嵌入向量;Vp表示目标图像的嵌入向量;Vn表示图像集中除目标图像外的随机一个图像的嵌入向量;α是一个常数;d是欧式距离计算。
4.根据权利要求1所述的一种融合图像标签信息的手绘图像实时检索方法,其特征在于,输入目标图像手绘草图和标签信息,实时检索并获得最终检索结果步骤包括:步骤一:用户输入的草图经过图像距离网络f1、f2、f3获得第i步的草图嵌入向量VSi;
步骤二:计算VSi与数据库中每个图像的嵌入向量Vp的欧氏距离,获得距离向量D={d1,d2,...,dn,...,dN};
步骤三:计算距离向量中元素的平均值,并将f1输出的特征图输入fex预测输入草图的标签概率,利用Softmax处理标签概率,得到伪标签;
步骤四:根据伪标签与输入标签的关系对距离向量中元素的平均值dm进行加权,得到标签加权距离值Dl;
步骤五:对标签加权距离赋予一个衰减系数,根据D与Dl之和对数据库中的图像进行排序,并获得检索结果。
5.根据权利要求4所述的一种融合图像标签信息的手绘图像实时检索方法,其特征在于,采用卷积神经网络预测图像的标签概率,并经过Softmax处理得到N个样本分别属于类别c的概率向量集Pc={p1c,p2c,...,pnc,...,pNc},将Pc作为伪标签,,样本n属于类别c的概率pnc表示为:其中,Vnc表示样本n属于类别c的概率向量;Vnk表示样本n的标签类别总数的概率向量;K表示标签包含的类别总数;N表示样本总数;n表示第n个样本;pnc表示样本n属于c类的概率。
6.根据权利要求4所述一种融合图像标签信息的手绘图像实时检索方法,其特征在于,根据伪标签与输入标签的关系对距离向量中元素的平均值dm进行加权处理,得到标签加权距离值Dl,样本n的伪标签的最大值即Max(pn)为该样本所属标签类别,若Max(pn)>0.8,则将样本n标记为可信样本,否则标记为不可信样本;若伪标签Max(pn)>0.8且与输入标签相同,样本n为可信正样本;若伪标签Max(pn)>0.8且与输入标签不同,样本n为可信负样本;
否则为不可信样本,距离不进行加权处理;计算标签加权距离值Dl的表达式为:
其中,dm表示距离向量中元素的平均值;dn表示样本n与草图的向量的欧式距离;N表示样本总数;Dl表示标签加权距离值;ωp<0,ωp为可信负样本标签加权权重,ωn>0,ωn为可信正样本标签加权权重;pn表示样本n的概率值伪标签。
7.根据权利要求4所述一种融合图像标签信息的手绘图像实时检索方法,对标签加权距离赋予一个衰减系数,D与Dl之和对数据库中的图像进行排序,其表达式为:Dfinal=D+ω·Dl
其中,D为草图分支与所有图像间距离向量;Dl为标签距离加权值;Dfinal为最终排序依据的距离;ω为标签加权距离权重,当i增大,即输入草图越完整时,ω逐渐减小。