欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2019102469914
申请人: 广东石油化工学院
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于鲁棒监督的深度离散哈希跨模态检索方法,其特点在于,所述基于鲁棒监督的深度离散哈希跨模态检索方法包括:对输入的图片检索时,采用模态内和模态间一致性保持策略,同时进行非冗余特征选择;并选择具有最小冗余度的鲁棒性和鉴别性特征生成二进制哈希码;

再基于奇异值分解进行离散哈希学习;搜索出对应的图片或对应图片描述的文本。

2.如权利要求1所述的基于鲁棒监督的深度离散哈希跨模态检索方法,其特征在于,所述基于鲁棒监督的深度离散哈希跨模态检索方法具体包括以下步骤:步骤一:获取训练特征数据集,其中每个样本都由文本和图像对组成;

步骤二:对数据集里图像和文本分别进行特征学习;

步骤三:基于非冗余特征选择的深度哈希码学习;

步骤四:模态内加入一致性保存策略;

步骤五:模态间加入一致性保存策略;

步骤六:得到总目标函数并进行优化。

3.如权利要求2所述的基于鲁棒监督的深度离散哈希跨模态检索方法,其特征在于,步骤二所述的对数据集里图像和文本分别进行特征学习的具体方法包括:图像特征学习:利用一个7层的神经网络,前5层是卷积神经网络CNN,分别是第一层用

96个大小为11*11的卷积核,步长是4,0边距,用Relu激活函数;池化用传统的2*2大小的模板做max pooling,最后局部归一化;第二层以第一层的输出作为输入,用256个5*5大小的卷积核,步长是1,padding是2,同样用Relu激活函数,2*2大小的max pooling,最后局部归一化;第三层、第四层和第五层相互连接,没有中间的池层或归一化层;第三和四层,用384个3*3的卷积核,步长是1,padding是1,第五层用256个3*3的卷积核,步长是1,padding是1;

最大池层跟随第五层卷积的输出,得到尺寸为6×6×256的输出特征;第6层全连接层有

4096个神经元,激活函数用Relu;得到与输入图像对应的尺寸为4096×1的特征;最后连接第7层全连接层,激活函数用双曲正切TanH;

文本特征学习:采用多层感知器MLP,由三个全连接层构成一个MLP DNN,用于将文本特征从原始特征空间映射到语义空间;利用relu作为前两个完全连通层的非线性激活函数。

并以双曲正切Tanh作为最后一层的激活函数;文本的维数是d(t)。

4.如权利要求2所述的基于鲁棒监督的深度离散哈希跨模态检索方法,其特征在于,在步骤三中,基于非冗余特征选择的深度哈希码学习包括:对于第i个实例(vi,ti),表示学习到的图像特征,对应于图像模态的输出,其中θv网络参数;

表示图像模态中n个训练实例的深度学习特征矩阵,其中第i个列向量为f(vi;

θv);

表示学习到的文本特征,对应于文本模式的输出,其中θt网络参数。

表示文本模态中n个训练实例的深度学习特征矩阵,其中第i个列向量为g(ti;θt);

图像和文本模态中的第i个训练实例的投影深度学习特征 和PtTg(ti;θt)分别在汉明空间中产生二值哈希码 和 和 将深度学习特征f(vi;θv)和g(ti;θt)映射到潜空间的线性投影矩阵,(·)T是矩阵转置。

5.如权利要求1所述的基于鲁棒监督的深度离散哈希跨模态检索方法,其特征在于,步骤三中,基于非冗余特征选择方法基于谱回归和2,1-范数正则化进行非冗余特征选择,对图像模态和文本模式进行特征选择,获得图像和文本模式中的实例的二进制哈希码:其中γ1,γ2,γ3是权衡参数,1表示所有元素为1的向量,||·||F表示矩阵的F-范数,Z(v)和Z(t)分别是基于两个相似矩阵构造的两个矩阵; 和 是通过对相似矩阵 进行奇异值分解SVD得到,其中 和 通过

对相似矩阵 进行奇异值分解(SVD)得到;用一组向量表示 和和 分别从图像模式和文本模式中

选择鉴别特征和非冗余特征,生成二进制哈希码。

6.如权利要求1所述的基于鲁棒监督的深度离散哈希跨模态检索方法,其特征在于,步骤四中,模态内加入一致性保存策略具体包括:在图像模态中,两个特征数据点vi和vj的模态内相似性 为其中 表示特征数据点vi的K近邻集合;文本模态中两个特征数据点ti和tj的模态内相似度 为:其中 表示特征数据点ti的K近邻的集合;每个特征数据点与特征数据点的K近邻在汉明空间中,最小化问题为:

7.如权利要求1所述的基于鲁棒监督的深度离散哈希跨模态检索方法,其特征在于,步骤五中,从图像模态数据点vi(i=1,2,…,n)和文本模态数据点tj,其中j=1,2,…,n,定义语义相关矩阵:vi与tj共享至少一个标签,vi和tj具有相同的语义, 汉明空间中保持图像模态和文本模态之间的模态一致性中,最小化问题表述如下:

8.如权利要求1所述的基于鲁棒监督的深度离散哈希跨模态检索方法,其特征在于,步骤六中,得到总的目标函数得到总目标函数并进行优化后,最后目标函数为:

s.t.B∈{-1,+1}n×k

其中B=[b1,b2,…,bn]T∈{-1,+1}n×k。

9.一种实施权利要求1所述基于鲁棒监督的深度离散哈希跨模态检索方法的基于鲁棒监督的深度离散哈希跨模态检索控制系统。

10.一种实施权利要求1所述基于鲁棒监督的深度离散哈希跨模态检索方法的基于鲁棒监督的深度离散哈希跨模态检索网络平台。