欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2021108100830
申请人: 湖北工业大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于文本层级结构的图像描述生成方法,其特征在于:采用编码器‑解码器的神经网络模型框架生成图像描述,在构建双层LSTM解码器的基础上,提出了基于文本层级结构的图像描述生成方法,所述方法包括如下步骤:(1)编码器部分,利用VGG网络提取图像的局部特征和全局特征;

(2)解码器部分应用双层改进的LSTM网络,其中全局特征输入到第一层的视觉选择LSTM中,局部特征和第一层的LSTM输出一起输入到自适应注意力模块中,该模块输出一个自适应上下文向量;

(3)第二层LSTM作为语言模型,使用FARIMA滤波器改进的ON‑LSTM接收来自自适应注意力模块的特征向量,利用文本的层级结构特征,解码生成图像的描述语句,即将自适应上下文向量输入到第二层LSTM中,计算得到词汇表中的单词,完成图像描述的生成;

步骤(3)的具体实现过程包括;

构建第二层的语言LSTM,即ON‑LSTM,使用FARIMA模型代替ON‑LSTM的遗忘门以此改进ON‑LSTM,具体步骤如下:第一步,使用FARIMA模型代替ON‑LSTM中的遗忘门,记为dt;

第二步,改进的ON‑LSTM的输入为自适应注意力模块处理后的自适应上下文向量 第一层视觉选择LSTM的隐藏层状态ht,两向量连接为当前输入xt;文本层级结构的具体机制在于,根据向量索引值区分当前信息xt和历史信息 层级,分区间更新第二层ON‑LSTM单元状态 在单元状态进行分层,促进每个神经元内部存储的信息生命周期的区分:单元状态较高维度将存储长期信息,这些信息包含了生成描述的高层语义信息,而排名较低的维度将存储可以迅速被忘记的短期信息; 和 分别记为主遗忘门和主输入门,计算公式为;

其中cusum为累和函数,以主动分配维度来存储长期或短期信息,避免在高级维度和低级维度之间进行严格划分; 和 表示上一时刻t‑1时主遗忘门中的权重参数, 表示主遗忘门中上一时刻t‑1的偏移量; 和 表示当前时刻t时主输出门中的权重参数, 表示当前时刻t时主输出门中的偏移量;

通过主遗忘门 和主输入门 对单元状态分区间更新,强制更新神经元的顺序,使每个神经元的门都依赖于其他神经元,将树状结构显式编码语言描述生成阶段,使图像特征语义信息和语言模型句法结构融合交互,进一步增强了解码器的语言解码能力,基于文本层级结构的门控单元状态更新规则为:其中,it,ft,ot分别是第一层视觉选择LSTM在t时刻的输入状态、遗忘状态、输出状态;bd表示偏移量, 和 分别表示新的遗忘状态和新的输入状态;ωt是已习得的权重参数,σ是sigmoid函数,输出区间[0,1]的概率值,B表示FARIMA模型中的滞后算子,(1‑B)表示差分算子,⊙代表元素相乘,tanh是双曲正切激活函数; 表示第二层ON‑LSTM单元状态; 表示第二层ON‑LSTM在t时刻通过自适应注意力模块计算得到的自适应上下文向量;

通过门控单元,获得语言模型LSTM的隐藏层状态 语言模型LSTM隐藏层 通过softmax层,输出对应词汇表中单词的概率分布,其词向量维度与词汇表向量大小相同,取其中最大概率值的索引,该索引值返回词汇表中搜索单词,即为模型在时刻t所输出的单词,则在生成第t个单词计算公式为:其中,yt指的是当前时刻第二层ON‑LSTM的输出即单词,该单词就是模型在时刻t所输出的单词,Wp是权重参数,bp是偏移量,将所有时刻单词按照时间顺序输出,即为该图像的语言描述。

2.根据权利要求1所述的基于文本层级结构的图像描述生成方法,其特征在于:步骤(1)的具体实现过程包括;

通过VGG16卷积网络的最后一层卷积层得到512个特征图,用f表示局部特征,则有:

1*r

f={f1,f2,…,fk},fk∈R

1*r

其中{f1,f2,...,fk}表示k个局部特征,fk∈R 表示每个图像区域的特征维度为1*r;局部特征通过全局平均池化后计算得到一个全局特征:其中 为全局特征,维度是1*d,最后将图像全局特征和局部特征馈入解码器。

3.根据权利要求1所述的基于文本层级结构的图像描述生成方法,其特征在于:步骤(2)中第一层的视觉选择LSTM的具体实现过程包括;

第一层的视觉选择LSTM在记忆细胞状态上增加选择门控机制,通过两个待学习的权重矩阵来构造门控向量gt,再对记忆细胞状态mt进行点积操作得到最后的标记向量st,从而对LSTM进行扩展,计算公式为:gt=σ(Wxxt+Whht‑1)

st=gt⊙tanh(mt)

其中Wx和Wh是要学习的权重参数,ht‑1是在上一时间步t‑1时刻视觉选择LSTM隐藏层的输出,xt是时间步t时LSTM的输入数据,gt是应用在LSTM的记忆细胞状态mt上的一个门控单元,⊙代表按元素进行乘积,σ是sigmoid激活函数;计算出在当前时间步t下的标记向量st;

在每个时间步t中,视觉选择LSTM的输入向量,是由第二层的语言LSTM的上一时间步隐藏状态 平均池化图像特征即全局特征 以及先前生成的单词的编码We∏t联接而成:其中,fi表示第i个局部特征;k表示局部特征的个数,We是单词的映射矩阵,是在不预先训练的情况下从随机初始化中学习的;∏t是在时间步t时输入单词的one‑hot向量,这些输入为视觉选择LSTM提供了丰富的上下文信息,分别包括语言LSTM的状态、图像内容和当前时间步生成的部分文本输出。

4.根据权利要求1所述的基于文本层级结构的图像描述生成方法,其特征在于:步骤(2)中自适应注意力模块的具体实现过程包括;

自适应注意力模块对某一区域的关注度用α 表示,其中w表示生成第w个单词,t′表示图像的第t′个区域,显然有:其中,T表示图像局部区域的数量;

t′

在上述公式中,f 表示图像的第t′个区域的局部特征,由该公式可以计算得到上下文 信息ct,在公式中α 由一个简单的神经网络计算得出,αt=α 的计算方式为:zt=tanh(Wff+Wght‑1)

αt=softmax(zt)

其中Wf,Wg是需要学习的参数,f是局部特征,tanh是神经网络的激活函数,可以理解为在当前t时刻,要生成的单词所需要关注的图像区域由αt来决定;

自适应注意力计算公式如下:

其中βt是时刻t的选择向量,βt是[0,1]范围内的标量,值为1时表示生成下一个单词时仅使用非视觉词汇信息,值为0时表示仅使用空间图像信息,即βt为一个权衡系数,权衡标记向量st和上下文向量ct得到新的自适应上下文向量 为了计算βt,添加了一个额外的元素,这个元素表示网络对非视觉词汇的关注程度,通过将上述公式转换为以下公式得到:其中[.;.]表示联合拼接, Ws和Wg是权重参数;ht是当前时刻t时的隐藏层输出,是在空间图像特征以及视觉标记向量上的注意力分布, 的最后一个元素即为选择向量 k是[0,T]范围内的一个值。