知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13095918853 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13095918853

知嘟嘟经纪人

基于层次多任务学习的示意图问答方法

￥38400

专利号： 2021108924879

申请人：西南交通大学

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2024-01-05

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.基于层次多任务学习的示意图问答方法，其特征在于，包括如下步骤：S1、对训练图像，预训练目标检测器检测图像成分，进行位置编码和视觉特征提取，然后编码组成区域特征序列；

S2、对训练集图像，区域特征序列作为图解析模块的输入，预测成分和成分之间的关系，训练网络参数；

S3、对训练集问题和备选答案，组成陈述句后进行词例化处理并提取语言特征，得到备选答案和问题组成的语言序列；

S4、对训练集，将图解析模块的输出与语言序列拼接输入问答模块，预测问题的正确选项，训练网络参数；

S5、对测试集图像，将图与问题、备选答案编码组成区域特征序列和语言序列，输入深度网络，预测问题的正确选项；

S1中，预训练目标检测器为基于COCO数据集和示意图问答图像数据集预训练的YOLO v3目标检测器；检测的示意图成分包括文字、物体区域、箭头头部、箭头尾部四种类别；区域特征序列编码可以分为以下两个子步骤：S1.1、对于示意图I，检测到的成分为O＝{o1，o2，...，om}，通过深度网络特征提取模块ResNet101得到维度为2048的视觉特征序列[z1，z2，...，zm]，然后将整张图像也通过相同特征提取器得到的z0放在序列的第一位作为全局信息，构成[z0，...，zm]，每个检测到的成分的左上坐标(xmin，ymin)和右下坐标(xmax，ymax)按照(xmin，ymin，xmax，ymax)，宽度，高度，区域面积组成7维位置特征序列[q0，q1，...，qm]；

S1.2、视觉特征序列[z0，...，zm]和位置特征通过视觉特征和位置特征融合模块得到

1024维的区域特征序列

S2中，模块由多层Transformer和一层GRU组成，将区域特征序列H 输入Transfomer编码器，得到1024维的输出将区域两两组成一对，预测两个区域之间是否存在关系，关系候选对＜oi，oj＞的特征由 qi， qj拼接得到，其中i，j＝

1，2，...，m并且i≠j，将特征组成的序列输入GRU，预测每对＜oi，oj＞是否存在关系，然后根据下式计算损失：其中，N为关系候选对数量，yn为第n对关系的真值，为模型对第n对关系的预测值；

S3中，词例化和编码处理利用RoBERTa，对于图像I的一个问题q，问题包含K个候选答案{ak|k＝1，...，K}，将问题q和ak由空格连接组成陈述句sk，输入RoBERTa进行分词和编码得到sk的语言特征其中 n为句子的最大词数量；

S4中，问答模块由多层Transformer模块TBdqa和一层全连接层组成，区域特征序列拼接语言序列组成，通过TBdqa得到取第

0个和第m+1个向量做对应元素相乘后输入全连接层和softmax层得到ak候选项的分数然后选择分数最高的为预测值，根据下式计算问答损失：其中，tcorrect表示当前问题的正确答案标签，In表示如果k和tcorrect相同则为1，否则为

0；

全局损失为L＝αLsp+βLdqa，其中α，β为可调整的超参数，用于平衡问答模块和模块的学习，通过后向传播算法进行全局参数调整，以最小化全局损失函数为目标优化网络参数，直到该函数值不再下降。

2.根据权利要求1所述的基于层次多任务学习的示意图问答方法，其特征在于，S2和S4使用多任务学习框架，通过图解析任务和问答任务这两个学习任务来解决问答任务。

3.根据权利要求1所述的基于层次多任务学习的示意图问答方法，其特征在于，S4中联合训练图解析模块和问答模块，使得问答的训练损失能够正确反馈到图解析模块和问答模块。

4.根据权利要求1所述的基于层次多任务学习的示意图问答方法，其特征在于，先进行图解析任务，再利用图解析任务中的输出进行问答任务，构建层次多任务框架。