1.基于多尺度NetVLAD和深度哈希的图像检索方法,其特征在于:包括以下步骤:步骤一、训练流程:对网络参数进行训练,以获得最佳的网络参数;首先将训练集分为查询集和数据库,将数据库中的数据按照与查询集的相似程度,从高到低进行排序,选取前m1个相对相似为正类,后m2个相对不相似为负类,构成三元组,并输入到提出的基于多尺度NetVLAD的深度哈希算法网络中进行网络训练;具体步骤如下:步骤1、获得训练样本数据:
训练样本数据分为查询集和数据库,数据库中图片标签为与查询集中图片的近似程度,由相似度判别方法获得;
步骤2、根据训练样本数据,分别对查询集中的每一个样本qj,j=1,2,...,Q,其中Q为查询集样本数量,取图像数据库中的m1个与qj最相似的图片构成 取m2个与qj最不相似的图片构成 从而得到三元组步骤3、将步骤二得到的三元组 作为输入,输入到多尺度卷积网络中,将输出的特征进行融合,得到融合的特征,具体步骤如下:
3-1、将训练样本输入到多尺度卷积网络,获得 总共P个卷积网络的中间层特征输出,其中x为卷积网络的中间层输出特征矩阵,L为训练样本总数量,P为任意大于等于2的整数值;
3-2、对特征进行融合: Xl为融合后输出特征矩阵,f表示基于深度学习的特征融合方法;
步骤4、用K均值聚类算法获得初始化簇中心,具体步骤如下:
4-1、选取聚类的簇数为K,最大迭代次数为nmax;
4-2、以步骤3所得的融合后特征{X1,X2,...,XL}为输入,并从中随机选取K个值作为初始化质心{μ1,μ2,...,μK},μ为簇中心矩阵;
4-3、将簇划分为C,并初始化为Ct=φ,t=1,2,...,K,其中C表示聚类簇群集合,t表示类别标号,总共有K个,φ为空集;
4-4、计算所有样本特征{X1,X2,...,XL}与质心{μ1,μ2,...,μK}的距离将Xl归入距离最小的对应的类别t类,更新Ct=Ct∪Xl;
4-5、重新计算出新的质心
4-6、重复4-4、4-5操作,直至质心不再发生改变或达到最大迭代次数,输出最终质心为所求簇中心c={μ1”,μ2”,...,μK”};
步骤5、对步骤3所得融合特征Xl进行VLAD池化,具体步骤如下:
5-1、用K个空间大小为1*1,参数矩阵为Wk,偏置矩阵为bk的滤波器对特征矩阵Xl进行卷积操作获得输出 其中Sk表示卷积后输出矩阵;
5-2、卷积后结果Sk(Xl)再经过Soft-max函数,获得连续化后的权重ak(Xl),见式(1):其中,k'=1,2,...,k;
5-3、将图片特征矩阵Xl作为输入,步骤4中得出的K个簇中心、5-2中所得的ak(Xl)作为VLAD的参数,得到D*K维VLAD特征矩阵Vl,见式(2):其中Vl(g,k)表示池化后特征矩阵Vl的第g行第k列元素,Xl(g)表示第l个样本特征的第g维,ck(g)表示第k个簇中心的第g维;
5-4、将5-3获得的VLAD特征矩阵Vl进行对列进行L2范数内部正则化,获得一个D*K维的矩阵Vl',见式(3):
5-5、对5-4获得的Vl'再次进行整体L2范数正则化,见式(4):步骤6、进行哈希编码:
6-1、将步骤5所得的D*K的列向量Vl”,降维为N维向量VN,见式(5):VN=Vl”*wH+bH (5);
其中wH为(D*K)*N维权重矩阵,bH为N维偏差;
6-2、对N维向量VN进行二进制编码,见式(6):其中 表示激活函数,我们采用的是sigmoid函数,其表达式为 z表示(-z)
函数 的输入,e 表示以自然常数e为底,-z为指数的指数函数;sgn()为阶跃函数;
步骤7、损失函数求取,见式(7)-(10):
L=αE1-βE2+γE3 (10);
其中,d表示欧式距离;m为阈值;α、β、γ为权值;t取值为{1,2};mean(.)用来计算向量中元素的平均值;E1、E2、E3分别表示三个损失函数,通过最小化查询图像与相似图像集的欧式距离,最大化与不相似图像集之间的欧式距离,即E1,来获得更好的图像特征表示;通过最大化哈希编码与0.5之间的平方误差,即E2,来实现尽可能多的激活结点;通过最小化哈希编码向量均值与0.5之间的误差,即E3,使得哈希编码的离散分布的熵最大;L表示网络总的损失函数;
步骤8、使用反向传播算法,对步骤7所得损失函数进行求导优化以上步骤出现过的可学习参数;
步骤二、测试流程:用新的图片数据集对步骤一训练得到的网络进行检索测试,观察其效果;具体步骤如下:
1.1、将新的样本输入已经训练好的网络中,得到查询图片的最后输出特征哈希码 和对应的数据集的最后输出特征
1.2、取 对应的图片为最后检索结果,其中, 距离计算为汉明距离,汉明距离定义为,两个等长字符串,将其中一个变换成另一个所需要的最小替换数;
取最小距离对应的数据库图像为检索结果。
2.如权利要求1所述的基于多尺度NetVLAD和深度哈希的图像检索方法,其特征在于:所述的相似度判别方法采用直方图匹配或像素平均值向量匹配。
3.如权利要求1所述的基于多尺度NetVLAD和深度哈希的图像检索方法,其特征在于:所述的基于深度学习的特征融合方法采用多卷积层特征矩阵拼接或多规格卷积核滤波方法。