1.一种基于度量学习的视觉问答方法,其特征在于,包括步骤如下:
S1,收集数据集,选取一张图像和一个与该图像相关的自然语言问题作为视觉问答模型的输入;
S2,对视觉图像与自然语言问题进行预处理,通过目标检测算法对视觉图像进行区域特征提取,提取物体目标特征以及边界框特征;通过语言表征算法对自然语言问题进行特征提取;
S3,将步骤S2中处理得到的视觉图像特征与自然语言问题特征组成多模态特征对,并采用编码器模块进行特征的融合与对齐;所述编码器模块包含自注意力模块和交叉注意力模块,自注意力模块采用单一模态编码器,交叉注意力模块采用多模态交叉编码器;
S4,采用注意力机制计算融合后的视觉图像特征与自然语言问题特征的相关性指数,并根据相关性指数将融合后的视觉图像特征分成积极视觉特征与消极视觉特征;
S5,将积极视觉特征、消极视觉特征和自然语言问题特征组成三元组,通过多模态三元组损失函数计算自然语言问题特征与视觉图像特征之间的关系,筛选出与自然语言问题相关的视觉图像特征;
S6,将原视觉特征、积极视觉特征和消极视觉特征分别与自然语言问题特征进行特征融合;所述特征融合采用交叉注意力编码器模块,最终得到原融合特征、积极融合特征与消极融合特征;
S7,将原融合特征、积极融合特征与消极融合特征分别输入到答案预测模块预测答案,并采用多标签的交叉熵损失函数分别计算原融合特征与积极融合特征通过答案预测模块得到的答案与标准标签的损失、消极融合特征通过答案预测模块得到的答案与虚假标签的损失;
S8,根据多模态三元组损失函数和多标签的交叉熵损失函数对视觉问答模型进行训练,满足训练条件后,得到最终模型参数。
2.根据权利要求1所述的基于度量学习的视觉问答方法,其特征在于,所述步骤S3中,在自注意力模块中,建立两种单一模态编码器,分别是视觉对象编码器和自然语言问题编码器;所述视觉对象编码器和自然语言问题编码器均由自注意力层与前馈神经网络层组成,在自注意力层与前馈神经网络层中均加入残差连接;
在交叉注意力模块中,建立两种多模态交叉编码器,分别是视觉对象交叉编码器与自然语言问题交叉编码器;视觉对象交叉编码器由交叉注意力层、自注意力层与前馈神经网络层组成,并且在交叉注意力层、自注意力层与前馈神经网络层中的每一层均加入残差连接。
3.根据权利要求1所述的基于度量学习的视觉问答方法,其特征在于,所述步骤S4中,所述注意力机制采用点积相似度计算视觉图像特征与自然语言问题特征之间的相关性指数:其中, 为16条中对齐与映射后的自然语言问题
特征, 为36条中对齐与映射后的视觉图像特征,
为余弦函数。
4.根据权利要求1所述的基于度量学习的视觉问答方法,其特征在于,所述步骤S5中,所述多模态三元组损失函数为:其中, 为欧氏距离, 为自然语言问题特征; 与 分别为视觉图像
特征的积极视觉特征与消极视觉特征; 为超参数,表示特征之间的距离;
表示选择最大值。
5.根据权利要求1所述的基于度量学习的视觉问答方法,其特征在于,所述步骤S7中,原融合特征与积极融合特征通过答案预测模块都能得到正确答案,而消极融合特征通过答案预测模块不能得到正确的答案。
6.根据权利要求1所述的基于度量学习的视觉问答方法,其特征在于,所述步骤S8中,根据损失值对视觉问答模型进行训练,在验证集准确率出现大幅下降时采用早停法,停止训练,得到最终模型的参数。