知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13095918853 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13095918853

知嘟嘟经纪人

基于度量学习的视觉问答方法

￥34400

专利号： 2022108397625

申请人：南京信息工程大学

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2024-01-05

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种基于度量学习的视觉问答方法，其特征在于，包括步骤如下：

S1，收集数据集，选取一张图像和一个与该图像相关的自然语言问题作为视觉问答模型的输入；

S2，对视觉图像与自然语言问题进行预处理，通过目标检测算法对视觉图像进行区域特征提取，提取物体目标特征以及边界框特征；通过语言表征算法对自然语言问题进行特征提取；

S3，将步骤S2中处理得到的视觉图像特征与自然语言问题特征组成多模态特征对，并采用编码器模块进行特征的融合与对齐；所述编码器模块包含自注意力模块和交叉注意力模块，自注意力模块采用单一模态编码器，交叉注意力模块采用多模态交叉编码器；

S4，采用注意力机制计算融合后的视觉图像特征与自然语言问题特征的相关性指数，并根据相关性指数将融合后的视觉图像特征分成积极视觉特征与消极视觉特征；

S5，将积极视觉特征、消极视觉特征和自然语言问题特征组成三元组，通过多模态三元组损失函数计算自然语言问题特征与视觉图像特征之间的关系，筛选出与自然语言问题相关的视觉图像特征；

S6，将原视觉特征、积极视觉特征和消极视觉特征分别与自然语言问题特征进行特征融合；所述特征融合采用交叉注意力编码器模块，最终得到原融合特征、积极融合特征与消极融合特征；

S7，将原融合特征、积极融合特征与消极融合特征分别输入到答案预测模块预测答案，并采用多标签的交叉熵损失函数分别计算原融合特征与积极融合特征通过答案预测模块得到的答案与标准标签的损失、消极融合特征通过答案预测模块得到的答案与虚假标签的损失；

S8，根据多模态三元组损失函数和多标签的交叉熵损失函数对视觉问答模型进行训练，满足训练条件后，得到最终模型参数。

2.根据权利要求1所述的基于度量学习的视觉问答方法，其特征在于，所述步骤S3中，在自注意力模块中，建立两种单一模态编码器，分别是视觉对象编码器和自然语言问题编码器；所述视觉对象编码器和自然语言问题编码器均由自注意力层与前馈神经网络层组成，在自注意力层与前馈神经网络层中均加入残差连接；

在交叉注意力模块中，建立两种多模态交叉编码器，分别是视觉对象交叉编码器与自然语言问题交叉编码器；视觉对象交叉编码器由交叉注意力层、自注意力层与前馈神经网络层组成，并且在交叉注意力层、自注意力层与前馈神经网络层中的每一层均加入残差连接。

3.根据权利要求1所述的基于度量学习的视觉问答方法，其特征在于，所述步骤S4中，所述注意力机制采用点积相似度计算视觉图像特征与自然语言问题特征之间的相关性指数：其中，为16条中对齐与映射后的自然语言问题

特征，为36条中对齐与映射后的视觉图像特征，

为余弦函数。

4.根据权利要求1所述的基于度量学习的视觉问答方法，其特征在于，所述步骤S5中，所述多模态三元组损失函数为：其中，为欧氏距离，为自然语言问题特征；与分别为视觉图像

特征的积极视觉特征与消极视觉特征；为超参数，表示特征之间的距离；

表示选择最大值。

5.根据权利要求1所述的基于度量学习的视觉问答方法，其特征在于，所述步骤S7中，原融合特征与积极融合特征通过答案预测模块都能得到正确答案，而消极融合特征通过答案预测模块不能得到正确的答案。

6.根据权利要求1所述的基于度量学习的视觉问答方法，其特征在于，所述步骤S8中，根据损失值对视觉问答模型进行训练，在验证集准确率出现大幅下降时采用早停法，停止训练，得到最终模型的参数。

推荐专利

一种基于分工决策的视觉问答模型的视觉问答方法及系统

我要求购

我不想找了，帮我找吧

您有专利需要变现?

我要出售

智能匹配需求，快速出售

摘要:

权利要求书:

知嘟嘟

友情链接

关于我们

联系我们