欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2019111877946
申请人: 广西师范大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-02-23
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种融合视觉上下文的图像描述方法,其特征在于,包括如下步骤:

1)预处理:将MS‑COCO图像描述数据集中的图像分为训练集和测试集,分别对训练集和测试集中的图像进行预处理;

2)图像的描述标签进行预处理:训练集中的每张图像对应的5句话作为图像的描述标签,设定每张图像的描述为16个单词长度,对于不满16个单词的句子使用令牌填充,出现次数少于5次的单词过滤舍弃,其中图像对应的描述标签为固定值,每张图像的描述长度自行设定;

3)提取特征:将训练集中的图像经过编码网络提取图像的特征,即裁剪或扩充图像的大小为512*512,并经过编码网络中卷积核大小为7*7的卷积层进行卷积,此时图像的特征通道变为64维,特征图缩小一倍;

4)均值池化:将步骤3)的特征图进行下采样,然后经过均值池化得到池化特征图1;

5)卷积、均值采样池化:将池化特征图1进行卷积运算,再次通过均值采样进行池化操作,此时卷积通道为128维,特征图缩小4倍,得到池化特征图2;

6)获取检测图像实体:将池化特征图2通过Sigmoid函数进行激活,然后通过编码网络的全连接层1输出特征图2到融合网络的模块控制器中,再经过5*5的卷积层卷积,得到图像的初级特征图,初级特征图作为检测图像的实体;

7)获取实体属性:步骤6所得的每个实体经过编码网络的区域推荐网络生成36个区域推荐候选框,对每个候选框进行卷积得到对应实体的属性;

8)卷积:将步骤6)中的初级特征图进行卷积操作,得到特征图3,此时使用的卷积核为

3*3,卷积通道为256维,特征图3缩小8倍;

9)获取实体属性特征:对特征图3通过Tanh函数进行激活,然后通过编码网络的全连接层2输出激活后的特征图3到融合网络中的模块控制器中,得到特征图4,特征图4作为实体的属性特征;

10)对特征图3进行卷积操作,此时特征图3的大小是64*64,通道大小为256维,经过3*3的卷积核之后,得到特征图5,特征图5的大小为32*32,图像通道大小为512维;

11)对特征图5经过大小为3*3的卷积核卷积,得到图像大小为16*16,图像通道为1024维的特征图6;

12)对特征图6经过大小为3*3的卷积核卷积,得到图像大小为8*8,图像通道为2048维的特征图7;

13)获取实体和属性的关系:对特征图7进行最大值池化操作,然后选取ReLu作为激活函数对池化后的特征图7进行激活,激活后的特征图7作为实体和属性的关系通过编码网络的全连接层3送入到融合网络的模块控制器和融合模块中;

14)搭配实体和属性的关系:模块控制器对步骤13)中送入到模块控制器中的特征图7作为实体和属性的关系进行搭配,其中搭配的视觉信息由融合网络生成,非视觉信息由解码网络生成;

15)LSTM训练:将搭配后的特征图7输入到解码网络中的LSTM进行训练,在训练的过程中下一单词生成使用的是标签描述;

16)解决暴露偏差:经过40轮迭代后,使用强化学习训练解决解码网络的暴露偏差,强化学习的奖励选取CIDEr,然后将CIDEr送入到融合网络的模块控制器和融合网络中;

17)降低维度:将训练好的句子通过LSTM输出到解码网络的全连接层进行降低维度,其中LSTM输出使用Sigmoid作为激活函数;

18)归一化:将进行了维度降低的句子通过softmax批量归一化到(0,1)之间,在选取描述单词时,每次选取概率最大的前5个单词进行输出;

19)步骤18)输出的5个单词即为当前图像的特征描述,当输出结束时,得到此图像完整的描述语句;

20)对MS‑COCO图像描述数据集中剩余的图像重复步骤2)‑步骤19)的操作,得到MS‑COCO图像描述数据集中所有图像的完整的描述语句,即得到的MS‑COCO图像描述数据集中每个图像的完整的描述语句对应一个训练好的模型;

21)将步骤1)中的测试集输入到步骤20)训练好的模型中,测试并验证模型的训练效果和性能。

2.根据权利要求1所述的融合视觉上下文的图像描述方法,其特征在于,步骤1)中所述的分别对训练集和测试集中的图像进行预处理,其过程分别如下:训练集中的图像的预处理过程为:先对训练集中的图像进行裁剪,再将裁剪后的图像水平翻转,然后将翻转后训练集的图像进行归一化;

测试集中的图像的预处理过程为:对测试集中图像进行裁剪。

3.根据权利要求1所述的融合视觉上下文的图像描述方法,其特征在于,步骤6)中所述的Sigmoid函数表示为:

其中e为数学中的指数,Z为变量。

4.根据权利要求1所述的融合视觉上下文的图像描述方法,其特征在于,步骤9)中所述的Tanh激活函数表示为:

其中a为在t时刻的视觉特征向量。

5.根据权利要求1所述的融合视觉上下文的图像描述方法,其特征在于,步骤13)中所述的Relu激活函数表示为:

6.根据权利要求1所述的融合视觉上下文的图像描述方法,其特征在于,所述编码网络为Resnet101残差网络。

7.根据权利要求1所述的融合视觉上下文的图像描述方法,其特征在于,所述融合网络中的模块控制器描述序列的词性搭配,模块控制器生成四个软权重,生成过程为:其中,x是三个视觉输入向量的拼接,w是一个四维的软注意力向量,最终生成的向量vt送入解码网络中解码。

8.根据权利要求1所述的融合视觉上下文的图像描述方法,其特征在于,所述融合网络中的融合模块生成使描述序列更加流畅的非视觉信息单词,非视觉信息单词中的a或者an,在每一个时间步t,标准化注意力权重αi,t计算为:其中 为训练中的学习参数,在每一时刻由 决定虚词a或者an由模型产生还是由解码网络生成,表示为:βt=0.5时,效果最佳,为自适应特征向量,则自适应注意力的环境编码为:

9.根据权利要求1所述的融合视觉上下文的图像描述方法,其特征在于,步骤7)中所述的区域推荐网络在特征图上使用一个滑动窗口,得到一个256维度的中间层,其中每一个卷积特征图使用K个锚点进行固定,经过区域推荐网络后能够产生2k个分类层和4K个回归层。