知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13095918853 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13095918853

知嘟嘟经纪人

一种基于图卷积的视觉问答增强方法

面议

专利号： 2019105201368

申请人：杭州电子科技大学

专利类型：发明专利

专利状态：已下证

专利领域：暂无

更新日期：2023-06-30

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种基于图卷积的视觉问答增强方法，其特征在于包括以下步骤：步骤1、分别提取图片和问题的特征表示；

步骤2、提取基于问题生成的图片中各目标之间的关系，构建关系特征检测器；

步骤3、将带有问题信息的图片生成为graph，并且为每个顶点挑选最相关的目标，为每个顶点生成新的特征表示之后，对graph进行最大池化和分类；

步骤2所述的构建关系特征检测器，具体如下：首先将带有resnet101的faster‑rcnn作为对象检测器；其次采用模型的输出并应用NMS操作并按IOU阈值选择32个对象；最后通过平均池层，将特征中的提议集成到2048个维度；

对象特征vi是在faster‑rcnn中从RPN中生成，其中i＝0,1,2，...，k‑1，为了学习单实例属性以及原始检测操作，设置属性分类器来学习实例属性；因此单个的属性学习概况如下：其中W*和b*是可学习的参数；LOCi，CLSi和ATTi是第i个物体的边界框、类和属性预测；

通过以下等式实现实体之间的关系：Ni＝W1vi+b1 公式4

Ri,j＝W2(Ni+Nj)+b2 公式5其中，W1、W2、b1、b2是用于将实例映射到关系域的可学习参数，Ni是用于将单个的实例特征映射到关系域的节点，Ri,j是提议实例i和j的关系预测；在关系训练中，提出的特征首先由全连接层映射到关系空间；然后，融合映射的功能以获得提出的特征之间的关系标签；设作品中有k个特征，所有k*(k‑1)个关系组合都参与训练；实际标签由锚点设置和检测ROI分配；目标标签是VrR‑VG数据集中的所有关系以及一个附加的无关系的标签；

步骤3具体的实现如下：

引入一个图像卷积网络(GCN)图学习器，用于捕获基于问题的图形的语义信息；构造一个无向图其中v是所有检测到的区域顶点的集合，且|v|＝N；每个表示每个图像物体的特征向量，ε是要学习的图形关系边缘的集合和是对应的邻接矩阵；

目前，GCN架构中，每个顶点邻域的编码信息定义为：其中，W是一个权重矩阵，b是偏向量，σ(·)是一个非线性激活函数；代表顶点vi的邻居集，也包括自己；以邻接矩阵M的形式对图结构进行代表性描述，与顶点相乘表示；对于每个顶点，把所有相邻顶点的特征向量都加起来；同时将关系特征检测器生成的关系信息Ri,j添加到邻接矩阵M中，帮助重构顶点；

学习邻接矩阵，每个节点(i，j，Mi,j)∈ε以问题的编码q和关系信息为条件；模拟特征向量之间的相似性，以及特征向量与给定问题的相关性；首先将N个视觉特征中的每个特征和问题特征q进行拼接，写成{vn||q}；然后计算一个联合嵌入：xn＝H({vn||q})

其中是一个非线性函数而dv,dq,dx分别是图像特征向量的维数、问题特征向量的维数和联合嵌入的维数；在此之后将具有自循环的图的基于问题的T

交互矩阵定义为A＝XX ，其中矩阵是所有联合嵌入xn的拼接；将关系信息矩阵R与交互矩阵A组合，因此邻接矩阵M表示为：M＝R+A，因此

2.根据权利要求1所述的一种基于图卷积的视觉问答增强方法，其特征在于步骤3具体的实现进一步如下：

确认每个顶点选择邻居的条件；为了每个图节点学习稀疏的邻域系统，利用如下排序策略：

其中，topk返回与输入向量关联值最大的k个索引，并且yi表示模拟邻接矩阵的第i行；

这种排序确保中心顶点可以找到与其最相关的邻节点。