知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13095918853 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13095918853

知嘟嘟经纪人

一种基于深度学习的多模态图文推荐方法及设备

￥38400

专利号： 2021103852465

申请人：陕西师范大学

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2024-01-05

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种基于深度学习的多模态图文推荐方法，其特征在于，包括以下步骤：基于用户的历史记录采用跨模态检索模型计算用户的正反馈和负反馈的聚类中心点，所述历史记录包括图像和文本；

从用户历史记录中挑选出用户评分较高的前N条历史记录；

提取所述N条历史记录的特征，根据所述特征得到N条历史记录的所属类别；

用跨模态检索模型从与所述N条历史记录模态相同的数据库中提取同类型的数据；

计算所提取同类型的数据和所述N个历史记录的相似度得分，将所述相似度得分按照倒序排列，选取前M项相似度得分对应的历史记录；

使用所述正反馈和负反馈的聚类中心点分别计算所述M项中每一项历史记录的正反馈分数和负反馈分数；

根据M项相似度得分中每一项的相似度得分及所述正反馈分数和负反馈分数，计算所述M项历史记录中每一项数据的总得分，并按照所述总得分倒序排列，选取前K个数据；

针对所述K个数据中的每一项数据，用跨模态检索模型从文本数据库或图像数据库中找到与之对应的K个数据；

将所述前K个数据和文本数据库或图像数据库中的K个数据对应结合，形成K项图像‑文本对，即得到推荐结果；跨模态检索模型通过以下过程进行训练得到：采用去除了最后一层分类层的MobileNetV3‑large模型来初步提取图像特征，在初步提取图像特征的基础上，一方面用AE来提取图像模态内的表示，即具有模态内信息的图像模态内表示；一方面使用RBM提取得到图像进一步的表示，该图像进一步的表示将被用来形成具有文本信息的图像模态间表示；

使用TF‑IDF算法来初步提取文本特征；在初步提取文本特征的基础上一方面使用DAE提取文本模态内的表示，即具有模态内信息的文本模态内表示；一方面使用RSRBM提取得到文本进一步的表示，该文本进一步的表示将被用来形成具有图像信息的文本模态间表示；

基于所述图像进一步的表示和文本进一步的表示，本发明用Multimodal DBN来提取图像和文本的模态间表示；在Multimodal DBN的顶层，在图像和文本表示之间进行交替的吉布斯采样，即获得带有文本特征的图像模态间表示和带有图像特征的文本模态间表示；

利用两个joint‑RBM模型融合每种模态的模态内表示和模态间表示，一个joint‑RBM模型将图像模态内表示和图像模态间表示进行融合，得到图像的综合表示；另一个joint‑RBM模型，将具有文本模态内表示和文本模态间表示进行融合，得到文本的综合表示；

分别用两个DAE对所述图像的综合表示和所述文本的综合表示分别做分类训练，以提取图像和文本特征的最佳隐藏层数；

固定所提取的图像和文本的最佳隐藏层数，并使图像和文本的最佳隐藏层数一一对齐，组成栈式对应自编码器；

在栈式对应自编码器中，使用关联约束函数，重新利用第二阶段图像的综合表示和第二阶段文本的综合表示训练所述栈式对应自编码器，使得所述栈式对应自编码器在得到图像和文本最终表示的同时，能够在图像和文本的表示之间建立联系；

使用所述正反馈和负反馈的聚类中心点分别计算所述M项中每一项历史记录的正反馈分数和负反馈分数时：计算出备选图片或文本数据特征与该用户正反馈中心和负反馈中心的距离，使用图像或者文本数据特征到正负反馈聚类中心点距离的倒数的和，作为该数据的正负反馈分数。

2.根据权利要求1所述的基于深度学习的多模态图文推荐方法，其特征在于，跨模态检索模型用于数据特征的提取，跨模态检索模型训练的过程分为两个阶段：在第一个阶段，对于图像，提取图像模态内的表示和带有文本信息的图像模态间的表示；对于文本，提取文本模态内的表示和带有图像信息的文本模态间的表示；

在第二个阶段，把图像模态内的表示和图像模态间的表示结合起来，形成图像综合表示；同时，把文本模态内的表示和文本模态间的表示结合起来，形成文本综合表示，然后利用栈式对应自编码器和约束函数在图像和文本的综合表示之间建立联系，同时学习到图像和文本的最终表示。

3.根据权利要求1所述的基于深度学习的多模态图文推荐方法，其特征在于，用Multimodal DBN来提取图像和文本模态间的表示时：先将文本的初步表示输入RSRBM模型，RSRBM能量函数为：其中，vi为输入层第i个节点的值，hj为隐藏层第j个节点的值，wij为输入层和隐藏层之间的权重，bi为第i输入层第i个节点的偏置，aj是隐藏层第j个节点的偏置，m是可见层离散值的总和；

将RSRBM模型的输出作为Multimodal DBN的文本输入，将所述文本输入通过两个隐藏层处理，所述两个隐藏层的节点数分别为2048和1024，激活函数设置为sigmoid激活函数；

然后，在Multimodal DBN的联合层，使用下公式进行交替的吉布斯采样，获得具有模态间信息的特征表示，‑x

σ(x)＝1/(1+e )

和用于生成每种模态数据上的分布，为图像输入的第1层隐藏层，σ()为sigmoid激活函数，为图像第2层上的权重，at为文本最后一层的偏置，为文本输入的第2层隐藏层，为文本第2层隐藏层上的权重，ai为图像最后一层的偏置，x为激活函数的输入，e为自然数。

4.根据权利要求1所述的基于深度学习的多模态图文推荐方法，其特征在于，所述关联约束函数为：其中，和图像和文本的输入，和代表了图像和文本的参数，和

为图像和文本隐藏层的表示，栈式对应自编码器中损失函数为：

其中：

和代表图像和文本自编码器的重构误差，代表了图像和文本的关联约束误差，是栈式自编码器中图像第j层隐藏层中的表示，是栈式自编码器中图像第j层重构层中的表示，是栈式自编码器中文本第j层隐藏层中的表示，是栈式自编码器中文本第j层重构层中的表示；θ代表了栈式自编码器中第j层的全部参数；

整体调整栈式对应自编码器的目标函数为：

x0和y0图像和文本的输入特征向量，x2h和y2h为它们对应的重构特征表示，δ(q)是栈式对应自编码器中所有参数的L2正则化表示。

5.根据权利要求1所述的基于深度学习的多模态图文推荐方法，其特征在于，用户历史记录中正反馈和负反馈聚类的中心点采用K‑means方法来分别计算，具体过程如下：获取用户的历史记录，所述历史记录包括正反馈和负反馈记录；

利用跨模态图文检索模型来提取所述正反馈和负反馈数据的特征表示；

利用欧氏距离分别计算所述正反馈和负反馈数据的特征表示之间的距离；

利用K‑means方法分别计算，得到用户记录中正反馈和负反馈聚类的中心点。

6.根据权利要求1所述的基于深度学习的多模态图文推荐方法，其特征在于，计算所述M项历史记录中每一项数据的总得分时，将所述相似度得分和正反馈分数和负反馈分数用加权的方式合并，作为图像和文本数据的总得分，具体的加权公式如下：Si为图像或者文本的总得分，为图像或者文本的相似度得分，为图像或者文本的正负反馈分数，α为前者的权重，i表示第i张备选图片。

7.一种计算机设备，其特征在于，包括处理器以及存储器，存储器用于存储计算机可执行程序，处理器从存储器中读取部分或者全部所述计算机可执行程序并执行，处理器执行部分或全部计算可执行程序时能实现权利要求1‑6任一项所述的多模态图文推荐方法。

8.一种计算机可读存储介质，其特征在于，计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时，能实现权利要求1‑6任一项所述的多模态图文推荐方法。