欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2019105201368
申请人: 杭州电子科技大学
专利类型:发明专利
专利状态:已下证
专利领域: 暂无
更新日期:2023-06-30
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于图卷积的视觉问答增强方法,其特征在于包括以下步骤:步骤1、分别提取图片和问题的特征表示;

步骤2、提取基于问题生成的图片中各目标之间的关系,构建关系特征检测器;

步骤3、将带有问题信息的图片生成为graph,并且为每个顶点挑选最相关的目标,为每个顶点生成新的特征表示之后,对graph进行最大池化和分类;

步骤2所述的构建关系特征检测器,具体如下:首先将带有resnet101的faster‑rcnn作为对象检测器;其次采用模型的输出并应用NMS操作并按IOU阈值选择32个对象;最后通过平均池层,将特征中的提议集成到2048个维度;

对象特征vi是在faster‑rcnn中从RPN中生成,其中i=0,1,2,...,k‑1,为了学习单实例属性以及原始检测操作,设置属性分类器来学习实例属性;因此单个的属性学习概况如下:其中W*和b*是可学习的参数;LOCi,CLSi和ATTi是第i个物体的边界框、类和属性预测;

通过以下等式实现实体之间的关系:Ni=W1vi+b1  公式4

Ri,j=W2(Ni+Nj)+b2  公式5其中,W1、W2、b1、b2是用于将实例映射到关系域的可学习参数,Ni是用于将单个的实例特征映射到关系域的节点,Ri,j是提议实例i和j的关系预测;在关系训练中,提出的特征首先由全连接层映射到关系空间;然后,融合映射的功能以获得提出的特征之间的关系标签;设作品中有k个特征,所有k*(k‑1)个关系组合都参与训练;实际标签由锚点设置和检测ROI分配;目标标签是VrR‑VG数据集中的所有关系以及一个附加的无关系的标签;

步骤3具体的实现如下:

引入一个图像卷积网络(GCN)图学习器,用于捕获基于问题的图形的语义信息;构造一个无向图 其中v是所有检测到的区域顶点的集合,且|v|=N;每个表示每个图像物体的特征向量,ε是要学习的图形关系边缘的集合和是对应的邻接矩阵;

目前,GCN架构中,每个顶点邻域的编码信息定义为:其中,W是一个权重矩阵,b是偏向量,σ(·)是一个非线性激活函数; 代表顶点vi的邻居集,也包括自己;以邻接矩阵M的形式对图结构进行代表性描述,与顶点相乘表示;对于每个顶点,把所有相邻顶点的特征向量都加起来;同时将关系特征检测器生成的关系信息Ri,j添加到邻接矩阵M中,帮助重构顶点;

学习邻接矩阵,每个节点(i,j,Mi,j)∈ε以问题的编码q和关系信息为条件;模拟特征向量之间的相似性,以及特征向量与给定问题的相关性;首先将N个视觉特征中的每个特征和问题特征q进行拼接,写成{vn||q};然后计算一个联合嵌入:xn=H({vn||q})

其中 是一个非线性函数而dv,dq,dx分别是图像特征向量的维数、问题特征向量的维数和联合嵌入的维数;在此之后将具有自循环的图的基于问题的T

交互矩阵定义为A=XX ,其中矩阵 是所有联合嵌入xn的拼接;将关系信息矩阵R与交互矩阵A组合,因此邻接矩阵M表示为:M=R+A,因此

2.根据权利要求1所述的一种基于图卷积的视觉问答增强方法,其特征在于步骤3具体的实现进一步如下:

确认每个顶点选择邻居的条件;为了每个图节点学习稀疏的邻域系统,利用如下排序策略:

其中,topk返回与输入向量关联值最大的k个索引,并且yi表示模拟邻接矩阵的第i行;

这种排序确保中心顶点可以找到与其最相关的邻节点。