欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020100270631
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-02-26
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于大批量训练的图文跨模态哈希检索方法,其特征在于:包括以下步骤:S1:对图像和文本数据进行预处理:

将图像数据和文本数据分别分为训练数据和查询数据,然后利用VGG-19深度学习模型提取图像的4096维的特征,将文本用词袋BoW模型表示成向量;

S2:哈希码映射:

图像特征和文本向量分别经过两层全连接层,得到图像和文本的低维特征,再经过阈值函数生成哈希码;

S3:建立目标损失函数L:

目标损失函数L包括三部分:1)图像特征FI和文本特征FT之间的距离,用基于边界的合页损失函数和sigmoid交叉熵来度量,得到损失函数L1和L2;2)度量低维特征F和哈希码H之间的距离,得到损失函数L3;3)权重W和偏置项B的正则化项,得到损失函数L4;将四个损失函数相加,得到目标损失函数L:min L=L1+λL2+γL3+L4

其中λ和γ表示可调节的超参数;

S4:通过大批量方式输入三元组数据训练模型:

批量大小设为8192,采用三元组方式输入训练数据,所述三元组方式包括查询样本,正样本和负样本,再通过优化目标损失函数L训练模型;

S5:使用训练好的模型进行跨模态哈希检索:

将图像数据和文本数据输入训练好的模型,得到对应的哈希码,之后将哈希码通过二进制异或运算得到汉明距离,然后根据汉明距离大小对图像数据或者文本数据排序,取排在前面的数据作为检索结果。

2.根据权利要求1所述的基于大批量训练的图文跨模态哈希检索方法,其特征在于:步骤S2具体包括:图像特征和文本向量分别经过两层全连接层,得到图像和文本的低维特征,第一层全连接层的激活函数是tanh函数,第二层全连接层的激活函数是sigmoid函数,整个过程表示如下:其中,W为权重,B为偏置项,c1表示第一层全连接层,c2表示第二层全连接层,f表示图像的VGG-19特征或者文本的BoW向量,F为得到的数据的低维特征;将得到的低维特征F经过阈值函数生成哈希码H,阈值函数如下:

3.根据权利要求1所述的基于大批量训练的图文跨模态哈希检索方法,其特征在于:步骤S3中,所述图像特征FI和文本特征FT之间的距离:其中D表示距离,I+和I-分别表示与查询文本qT同语义和不同语义的图像, 表示I+与qT之间的距离, 表示I-与qT之间的距离,||·||Frobenius表示矩阵的Frobenius范数;使用一个基于边界的合页损失函数(a margin-based hinge loss function)来度量,如下式所示:其中β是 和 的边界值,是一个可调节的超参数;在训练优化过程中,目的是降低的值,同时增加 的值,即 越小, 越大越好;因此将该过程转化为二分类问题,使用sigmoid交叉熵函数来作为损失函数,得到如下损失:

4.根据权利要求1所述的基于大批量训练的图文跨模态哈希检索方法,其特征在于:步骤S3中,所述低维特征F和哈希码H之间的距离:哈希码是离散的,当数据的实值特征F在被转换为哈希码H时,会发生信息损失:其中 表示查询文本qT的低维特征FT与其对应的哈希码HT之间的距离; 表示图像I的低维特征FI与其对应的哈希码HI之间的距离。

5.根据权利要求1所述的基于大批量训练的图文跨模态哈希检索方法,其特征在于:步骤S3中,所述权重W和偏置项B的正则化项:大批量训练在训练模型时不稳定,为了降低其负面影响,引入正交正则化来作为权重W的惩罚项;对于偏置项B,使用L2正则化项作为惩罚项,得到损失项如下:其中Wtranspose是权重矩阵W的转置,Iindentity表示单位矩阵,B表示偏置项,θ和ω是超参数。

6.根据权利要求1所述的基于大批量训练的图文跨模态哈希检索方法,其特征在于:步骤S4具体包括:由于有图像检索文本和文本检索图像两种检索任务,因此将分别对模型进行训练,具体如下过程:S41:首先初始化权重W和偏置项B,设定批量大小为8192和训练轮次为n;

S42:为每个查询文本qT随机取出m个同语义的图像I+和不同语义的图像I-组成三元组(qT,I+,I-),作为训练数据,对网络进行训练,并通过目标函数L更新权重W和偏置项B;

为每个查询图像qI随机取出m个同语义的文本T+和不同语义的文本T-组成三元组(qI,T+,T-),作为训练数据,对网络进行训练,并通过目标函数L更新权重W和偏置项B。