1.一种图像语义描述的自适应生成系统,其特征在于,包括图像读取器、编码器、解码器和语义描述显示器;所述图像读取器的输出端口连接所述编码器的输入端口;所述编码器的输出端口连接所述解码器的输入端口;所述解码器的输出端口连接所述语义描述显示器的输入端口;
所述图像读取器,用于获取待语义描述的图像;
所述编码器包括全局特征提取单元、局部特征提取单元以及图像特征组合单元;
所述解码器包括单层或多层神经网络,所述神经网络包括LSTM部分、Attention部分和MLP部分,生成语义描述模型;其中,Attention部分采用自适应注意力机制;
所述解码器根据所述编码器输出的组合信息利用所述语义描述模型生成图像语义描述的词句;
所述语义描述显示器,用于输出显示所述图像语义描述的词句;
所述图像特征组合单元,用于对所述全局特征提取单元提取出的待语义描述图像的全局特征和所述局部特征提取单元提取出的待语义描述图像的局部特征进行组合,得到组合信息;
编码器将语义信息的词矢量wt和图像的视觉信息vt合并得到解码器的输入向量xt=[wt,vt],然后利用单层神经网络转换成组件矢量st;输入向量xt通过LSTM后输出向量ht,自适应注意力机制将组件矢量st与LSTM的输出向量ht融合生成上下文矢量 为当前的隐藏状态的视觉残差信息;
所述LSTM根据所述组合信息聚焦图像特征及聚焦文本得到图像的视觉信息vt和语义信息ct;
当前时刻输入图像的视觉信息表示为:
其中,G为全局特征向量, 为当前时刻输出的对全局特征的训练权重, 为t时刻输出的对局部特征的权重分配,且 Li为局部特征向量元素,且1<=i<=n;
所述语义信息ct由图像的视觉信息vt与解码器中LSTM当前状态下的输出ht通过卷积神经网络表示为:ct=g(vt;ht)
其中,g(·)表示注意力函数,表示输入图像经由编码器提取视觉信息的Global‑local特征;ht为LSTM在当前状态下的隐藏状态输出,有注意力函数将图像的视觉信息vt与ht进行融合得到空间注意力元素向量,公式如下:αt=softmax(zt);
其中, kt为元素全部为1的向量,满足
为当前状态下对于vt的关注度权重分配;
训练权重 随t的变化而变化,并动态调整不同位置的权重,根据t时刻输入的训练权重以及t时刻之前相关权重信息, 动态调整的更新机制表示为:其中,fi为I的子集向量,有fi∈{G,L1,L2,…,Ln}; 表示对应的视觉信息的特征向量fi在当前权重下相对于先前已经产生的描述词句的相关分数权重;ht‑1为上一时刻LSTM的隐藏状态输出;w、Wh、Wf和b为训练的权重参数; 为激活函数,采用的是双曲正切函数tanh(·);
生成语义描述模型包括:
所述组件矢量st结合LSTM的输出向量ht生成语义描述模型的求解公式,具体表示为:其中,θ表示模型参数,I表示输入图像的组合信息,y={y1,…,yt}表示生成的语义表示,其优化的目标函数表示为:编码器将语义信息的词矢量wt和图像的视觉信息vt合并得到解码器的输入向量xt=[wt,vt],然后利用解码器中LSTM转换成组件矢量st,包括:自适应注意力机制从解码器存储的视觉信息和语义信息合并后的输入向量中自适应提取新的组件矢量st,并根据该组件矢量判决是否聚焦图像的视觉信息;
所述新的组件矢量st表示为:
gt=σ(Wxxt+Whht‑1);
st=gt·tanh(mt);
其中,Wx和Wh表示需要训练的权重参数;xt表示在t时刻LSTM的输入;gt表示LSTM的记忆单元mt的门;·表示点乘;σ表示sigmoid激活函数。
2.根据权利要求1所述的系统,其特征在于,所述全局特征提取单元,用于利用ImageNet训练VGG16的权重参数,并通过CNN VGG16的fc7层输出作为图像的全局特征向量,表示为G的4096维矢量;
所述局部特征提取单元,用于对Faster R‑CNN输出窗口选择置信度最高的n个局部特征得到局部特征向量,表示为L={L1,L2,…,Ln},其中n<=10;
LSTM根据所述组合信息聚焦图像特征及聚焦文本,并通过Attention的自适应注意力机制调节待语义描述的图像信息的关注点后,经过MLP对图像信息进行融合,生成语义描述模型。
3.根据权利要求2所述的系统,其特征在于,所述图像特征组合单元将所述全局特征和所述局部特征组合后输出为I={G,L1,L2,…,Ln}的4096维向量集合,该向量集合由n+1个
4096维向量构成,其中n<=10。
4.根据权利要求1所述的系统,其特征在于,语义描述模型在t时刻语义描述输出表示为:其中,f(·)表示yt概率的非线性函数输出, 表示输入图像的组合信息I在t时刻Attention自适应输出的视觉残差信息;ht为解码器中LSTM在t时刻的隐含状态;
在t时刻输出语义词句的概率表示为:
其中,Wp为对 和ht加权的权重参数。
5.根据权利要求4所述的系统,其特征在于,解码器中自适应注意力机制的Attention生成矢量 为当前t时刻隐含状态的视觉残差信息,该残差信息的语义向量 表示为:其中,βt取值范围为0~1,为当前时刻的语义门,控制所述语义描述模型对视觉信息与语义信息的关注度分配;取值为0表示只关注视觉信息,取值为1表示只关注语义信息。
6.根据权利要求5所述的系统,其特征在于,变量βt的更新计算包括,将空间注意力元素αt加入新的变量,扩展成变量 具体表示为:其中,Ws和Wg为训练的权重参数, 为含有k+1个元素的向量,满足 且变量βt表示为: