1.基于层次多任务学习的示意图问答方法,其特征在于,包括如下步骤:S1、对训练图像,预训练目标检测器检测图像成分,进行位置编码和视觉特征提取,然后编码组成区域特征序列;
S2、对训练集图像,区域特征序列作为图解析模块的输入,预测成分和成分之间的关系,训练网络参数;
S3、对训练集问题和备选答案,组成陈述句后进行词例化处理并提取语言特征,得到备选答案和问题组成的语言序列;
S4、对训练集,将图解析模块的输出与语言序列拼接输入问答模块,预测问题的正确选项,训练网络参数;
S5、对测试集图像,将图与问题、备选答案编码组成区域特征序列和语言序列,输入深度网络,预测问题的正确选项;
S1中,预训练目标检测器为基于COCO数据集和示意图问答图像数据集预训练的YOLO v3目标检测器;检测的示意图成分包括文字、物体区域、箭头头部、箭头尾部四种类别;区域特征序列编码可以分为以下两个子步骤:S1.1、对于示意图I,检测到的成分为O={o1,o2,...,om},通过深度网络特征提取模块ResNet101得到维度为2048的视觉特征序列[z1,z2,...,zm],然后将整张图像也通过相同特征提取器得到的z0放在序列的第一位作为全局信息,构成[z0,...,zm],每个检测到的成分的左上坐标(xmin,ymin)和右下坐标(xmax,ymax)按照(xmin,ymin,xmax,ymax),宽度,高度,区域面积组成7维位置特征序列[q0,q1,...,qm];
S1.2、视觉特征序列[z0,...,zm]和位置特征通过视觉特征和位置特征融合模块得到
1024维的区域特征序列
in
S2中,模块由多层Transformer和一层GRU组成,将区域特征序列H 输入Transfomer编码器,得到1024维的输出 将区域两两组成一对,预测两个区域之间是否存在关系,关系候选对<oi,oj>的特征 由 qi, qj拼接得到,其中i,j=
1,2,...,m并且i≠j,将特征 组成的序列输入GRU,预测每对<oi,oj>是否存在关系,然后根据下式计算损失:其中,N为关系候选对数量,yn为第n对关系的真值, 为模型对第n对关系的预测值;
S3中,词例化和编码处理利用RoBERTa,对于图像I的一个问题q,问题包含K个候选答案{ak|k=1,...,K},将问题q和ak由空格连接组成陈述句sk,输入RoBERTa进行分词和编码得到sk的语言特征 其中 n为句子的最大词数量;
S4中,问答模块由多层Transformer模块TBdqa和一层全连接层组成,区域特征序列拼接语言序列组成, 通过TBdqa得到 取第
0个和第m+1个向量做对应元素相乘后输入全连接层和softmax层得到ak候选项的分数然后选择分数最高的为预测值,根据下式计算问答损失:其中,tcorrect表示当前问题的正确答案标签,In表示如果k和tcorrect相同则为1,否则为
0;
全局损失为L=αLsp+βLdqa,其中α,β为可调整的超参数,用于平衡问答模块和模块的学习,通过后向传播算法进行全局参数调整,以最小化全局损失函数为目标优化网络参数,直到该函数值不再下降。
2.根据权利要求1所述的基于层次多任务学习的示意图问答方法,其特征在于,S2和S4使用多任务学习框架,通过图解析任务和问答任务这两个学习任务来解决问答任务。
3.根据权利要求1所述的基于层次多任务学习的示意图问答方法,其特征在于,S4中联合训练图解析模块和问答模块,使得问答的训练损失能够正确反馈到图解析模块和问答模块。
4.根据权利要求1所述的基于层次多任务学习的示意图问答方法,其特征在于,先进行图解析任务,再利用图解析任务中的输出进行问答任务,构建层次多任务框架。
5.根据权利要求1所述的基于层次多任务学习的示意图问答方法,其特征在于,S5中,固定已经训练好的网络参数对示意图和问题进行推理,具体分为以下几个子步骤:out
S5.1、示意图按S1进行成分检测和特征编码,然后按S2通过TBsp得到特征输出H ;
S5.2、问题和候选答案按S3进行预处理,得到问题和候选答案ak的语言特征out
S5.3、H 与语言特征 拼接组成联合的特征序列
然后按S4中通过TBdqa和softmax层得到ak候选项的分数 选择分数最高的选项作为输出答案。