1.一种基于分工决策的视觉问答模型的视觉问答系统,其特征在于,该系统包括:特征获取模块、分工决策模块以及答案输出模块;
所述特征获取模块用于获取图像的视觉特征和问题的文本特征,并输入到分工决策模块中;
所述分工决策模块包括预处理模块、视觉理解模块、文本理解模块、交换模块以及答案预测模块;
所述预处理模块用于将问题文本转化为视觉特征,并提取图像的局部视觉特征和局部文本信息,将问题文本转化的视觉特征和图像的局部视觉特征输入到视觉理解模块,将局部文本信息输入到文本理解模块;
所述视觉理解模块用于处理来自预处理模块的输出,经过筛选、图构建和空间关系建模,得到视觉特征图并输入到交换模块;
所述文本理解模块用于处理文本信息,经过筛选、计数和语义关系建模,将得到的文本特征图输入到交换模块,将计数结果的one‑hot向量输入到问题预测模块;文本信息包括问题文本和来自数据预处理模块的图像的局部文本信息;
所述交换模块用于在视觉理解模块和文本理解模块之间进行数据交互,接收来自视觉理解模块的视觉特征图和文本理解模块的文本特征图,通过数据交互,对视觉特征图和文本特征图进行一轮或多轮迭代更新,并将最后一轮迭代更新的视觉特征图和文本特征图分别反馈给视觉理解模块和文本理解模块;
所述问题预测模块用于获取文本理解模块和视觉理解模块中的更新后的文本特征图、更新后的视觉特征图以及one‑hot向量,并根据得到的特征得到问题的答案;
所述答案输出模块用于输出问题预测模块得到的问题答案。
2.根据权利要求1所述的一种基于分工决策的视觉问答模型的视觉问答系统,其特征在于,数据预处理模块将问题文本转化为视觉特征的过程包括:采用文本‑图像网络DM‑GAN对训练集中与图像有关的问题进行转化,得到该问题的图像,并采用ResNet50网络对转化后的图像进行特征提取,得到与问题有关的视觉特征Q2I feature。
3.根据权利要求1所述的一种基于分工决策的视觉问答模型的视觉问答系统,其特征在于,视觉理解模块处理视觉信息的过程包括:采用边界框裁剪模块Bounding Box Clipping和矩阵创建模块Adjacency Matrix Creating对图像局部特征Image features和Q2I feature进行筛选和图构建,得到邻接矩阵和视觉特征图;将Image features与Q2I feature进行拼接并和邻接矩阵一起输入到空间关系学习模块Spatial Relation Learning中进行空间关系建模;采用残差连接模块Add&Norm将关系建模后的视觉特征与建模之前的特征相加并归一化,得到视觉空间特征。
4.根据权利要求1所述的一种基于分工决策的视觉问答模型的视觉问答系统,其特征在于,采用文本理解模块对训练集中的文本信息进行处理的过程包括:采用LSTM对图像的文本信息Image captions和问题文本Question进行编码;采用边界框裁剪模块Bounding Box Clipping和邻接矩阵构建模块Create adjacency matrix对编码后的Image captions和Question进行筛选和图构建,得到邻接矩阵和文本特征图;将筛选的结果送入Count模块中进行计数得到C;将编码后的Image captions和Question进行拼接并和邻接矩阵一起输入到语义关系学习模块Semantic Relation Learning进行语义关系建模;采用Add&Norm模块将关系建模后的特征与建模之前的特征相加并归一化,得到文本语义特征。
5.根据权利要求1所述的一种基于分工决策的视觉问答模型的视觉问答系统,其特征在于,交换模块对视觉特征图和文本特征图进行更新的过程包括:分别获取视觉特征图和文本特征图中每个节点的特征值集合,利用两个特征值集合计算两个特征图之间的注意力系数矩阵,利用注意力系数矩阵分别和两个特征图的每个节点进行加权平均,并利用特征线性调制对每个节点进行更新。
6.根据权利要求1所述的一种基于分工决策的视觉问答模型的视觉问答系统,其特征在于,问题预测模块对特征进行处理的过程包括:采用注意力机制计算问题文本特征和文本语义特征的注意力系数,将注意力系数和文本语义特征进行加权平均得到文本语义嵌入capemb,将capemb送入多层感知机MLP中得到文本理解模块预测的概率p2;采用注意力机制计算问题转化的视觉特征Q2I feature和视觉空间特征的注意力系数,将注意力系数和视觉空间特征进行加权平均得到视觉空间嵌入Vemb,将Vemb送入多层感知机MLP中得到视觉理解模块预测的概率p3;将capemb,Vemb以及C进行拼接送入多层感知机MLP中得到联合嵌入预测的概率p1。
7.一种基于分工决策的视觉问答模型的视觉问答方法,其特征在于,包括:获取视觉图像和待回答的问题,将视觉图像和待回答的问题输入到基于分工决策的图像视觉问答模型中,得到问答结果;基于分工决策的图像视觉问答模型包括视觉理解模块、文本理解模块以及交换模块,视觉理解模块、文本理解模块和交换模块分工合作回答问题;
对基于分工决策的图像视觉问答模型进行训练的过程包括:S1:获取原始问答视觉图像集,对原始问答视觉图像集中的数据进行预处理,并将预处理后的问答视觉图像集进行划分,得到训练集和测试集;
S2:将训练集中的数据输入到LRBNet模型中进行训练;
S3:将训练集中的问题文本转化为视觉特征,并提取图像的局部视觉特征和局部文本信息;
S4:采用视觉理解模块对视觉信息进行处理,得到视觉空间特征;
S5:采用文本理解模块对文本信息进行处理,得到文本语义特征;
S6:采用交换模块迭代更新视觉特征图和文本特征图;
S7:采用应答预测模块对视觉空间特征和文本语义特征进行处理,预测出视觉图像的答案;
S8:根据预测出的视觉图像答案计算模型的损失函数;
S9:将测试集中的数据输入到模型中,不断调整模型的参数,当损失函数最小时完成模型的训练。
8.根据权利要求7所述的一种基于分工决策的视觉问答模型的视觉问答方法,其特征在于,将问题文本转化为视觉特征的过程包括:采用文本‑图像网络DM‑GAN对训练集中与图像有关的问题进行转化,得到该问题的图像,并采用ResNet50网络对转化后的图像进行特征提取,得到与问题有关的视觉特征。
9.根据权利要求7所述的一种基于分工决策的视觉问答模型的视觉问答方法,其特征在于,采用交换模块将视觉特征图和文本特征图进行更新过程包括:交换模块采用基于注意力的特征线性调制迭代更新视觉特征图和文本特征图进行联系。
10.根据权利要求7所述的一种基于LRBNet模型的视觉问答方法,其特征在于,模型的损失函数表达式为:
L=αL1+βL2+(1‑α‑β)L3其中, N表示样本数,yj表示真实标签,ρ(x)是sigmoid函数,p.j表示答案为yj的概率,p1为联合概率,p2为文本理解模块预测的概率,p3为视觉理解模块预测的概率,α,β表示损失L1和L2的权重,L1,L2,L3分别为联合嵌入多标签分类损失,文本嵌入多标签分类损失和视觉嵌入多标签分类损失。