1.一种基于多目标关联深度推理的图像问答方法,其特征在于包括如下步骤:步骤(1)、数据预处理,对图像和文本数据提取特征首先是对图像预处理:使用Faster-RCNN深度神经网络结构检测图像中包含的目标实体;对图像提取视觉特征V以及图像中包含各目标尺寸、坐标信息的几何特征G;对文本数据进行预处理:统计给定的问题文本的句子长度根据统计信息设置问题文本的最大长度;构建问题文本词汇字典,将问题的词语替换为描述词汇字典中的索引值,然后经过LSTM,从而将问题文本转化为向量q;步骤(2)、基于候选框几何特征增强的注意力模块对于输入的三个特征候选框位置的几何特征G、视觉特征V和注意力权重向量向量m;首先对注意力权重向量向量m进行顺序编码,将其根据权值大小顺序转化为向量后,映射到高维度与同样映射到高维度的视觉特征V相加,其输出经过层归一化处理得到VA;然后将几何特征G通过线性层映射后经过激活函数ReLU得到GR;将VA和GR输入候选框关系组件进行推理得到Orelation,将Orelation经过线性层和sigmoid函数与原始的注意力权重向量向量m相乘得到新的注意力权重向量向量步骤(3)、构建深度神经网络首先将问题文本中根据词汇字典转换为索引值向量;然后将该向量经过高维映射传入长短期记忆网络(Long Short Term Memory,LSTM),将其输出的向量q和使用Faster R-CNN获得的视觉特征V通过哈达玛积(Hadamard product)的方式融合,并通过注意力模块得到各实体特征的注意力权重向量m;将注意力权重向量m、视觉特征V以及几何特征G输入基于候选框几何特征增强的适应性注意力模块,利用视觉特征和候选框位置的几何特征进行推理,对注意力权重向量进行重排序,得到新的注意力权重向量将注意力权重向量与视
觉特征V乘积融合后做加权平均得到新的视觉特征将视觉特征与问题文本向量q通过
哈达玛积融合经过softmax函数产生概率,并将此概率输出作为网络的输出预测值;步骤(4)、模型训练根据产生的预测值同该图像的实际描述的差异,并利用反向传播算法对步骤(3)中神经网络的模型参数进行训练,直至整个网络模型收敛。2.根据权利要求1所述的一种基于多目标关联深度推理的图像问答方法,其特征在于步骤(1)具体实现如下:1-1 .对图像i进行特征提取,使用现有的深度神经网络Faster-RCNN提取特征,提取的特征包括图像中包含的k个目标的视觉特征V和几何特征G,其中V={v1,v2,...,vk},G={g1,g2,...,gk},k∈[10,100]且单个目标的视觉向量为单个目标的几何特征为gi
={x,y,w,h},其中其中x,y,w,h为几何特征的位置参数,分别表示图像中实
体所在候选框的横坐标、纵坐标以及宽度和高度;1-2.对于给定的问题文本,首先统计数据集中问题文本中不同的词,并将其记录在字典中;根据单词字典将单词列表中的词语转化成索引值,从而将问题文本转化成固定长度的索引向量,其具体公式如下:其中是单词wk在字典中的索引值,l表示问题文本的长度。
3.根据权利要求2所述的一种基于多目标关联深度推理的图像问答方法,其特征在于步骤(2)所述的基于候选框几何特征增强的适应性注意力模块深度推理网络,具体如下:2-1 .首先将输入的注意力权重向量向量m进行处理;将m中的各目标注意力权重向量m{m1,m2,...,mk}的值排序的序号pos进行编码,其具体公式如下:其中i∈[0,1,...,d/2]pos∈[1,2,...,k],得到基于注意力权重向量m的矩阵
2-2.将矩阵PE和视觉特征V分别经过不同的线性层后相加,其输出经过层归一化处理得到VA,其具体公式如下:VA=Layer Norm(WPEPET+WVVT) (公式3)其中2-3.对几何特征G进行关联计算,将其经过线性层得到GR,其具体公式如下:GR=WGΩ(G)T (公式4)其中,m ,n ∈[ 1 ,2 ,. . . ,k ] ,G E 使用公式( 2 ) 编码,2-4.将VA和GR输入关联模块进行推理得到Orelation,具体公式如下:Orelation=softmax(log(GR)+VR)·(WOVA+bO) (公式7)其中
2-5.将Orelation经过全连接层后,再经过sigmoid函数与原始的注意力权重向量m相乘得到新的注意力权重向量具体公式如下:其中
4.根据权利要求3所述的一种基于多目标关联深度推理的图像问答方法,其特征在于步骤(3)所述的构建深度神经网络,具体如下:
3-1 .将问题文本向量q与视觉特征V经过全连接层的线性变换映射至公共空间然后使用哈达玛积融合,Ffusion表示公共空间上的融合特征;Wr和Wq分别表示将视觉特征V和当前状态信息q进行线性变换的对应全连接层参数,符号表示两矩阵采用哈达玛乘积;Wm表示将融合特征降维并产生注意力权重向量分布的全连接层参数,