1.一种基于CNN的三级信息融合视觉目标跟踪方法,其特征在于,包括以下步骤:S1:对当前序列图像,提取模板图像和检测图像,进行图像预处理;
S2:采用Siamese孪生网络构建整体网络框架,将模板图像和检测图像分别输入两个相同的分支网络进行同步处理,分支网络采用改进后的VGG-11网络;
S3:改进后的VGG-11网络采用三级网络融合策略,将整个网络分为浅层、中层、深层三个部分,分别提取三个部分的各层卷积特征,对每个部分的各层卷积特征进行融合,得到特征图;
S4:对两个分支网络中三个部分的特征图,按照浅层、中层、深层三个层次分别进行相关操作,构建三个层次的得分图;
S5:对步骤S4中三个层次的得分图进行融合,构建出最终得分图;
S6:使用最终得分图输出跟踪结果。
2.根据权利要求1所述一种基于CNN的三级信息融合视觉目标跟踪方法,其特征在于:所述提取模板图像和检测图像具体为,选取第一帧为模板图像,后续帧为检测图像。
3.根据权利要求1所述一种基于CNN的三级信息融合视觉目标跟踪方法,其特征在于:还包括使用训练集对整体网络进行训练,使用验证集对训练后的网络模型进行验证,调整模型的超参数。
4.根据权利要求3所述一种基于CNN的三级信息融合视觉目标跟踪方法,其特征在于:所述使用训练集对整体网络进行训练时,使用逻辑损失进行训练:其中,L(y[u],v[u])表示损失函数,u是得分图上任一点,v[u]是该点模板-检测图像对的相似性得分,y[u]是该点的实际标签,D表示整张得分图范围。
5.根据权利要求1或2或3或4所述一种基于CNN的三级信息融合视觉目标跟踪方法,其特征在于:步骤S1所述图像预处理包括,以视觉目标为中心对图像进行裁剪,模板图像大小裁剪为127×127,检测图像大小裁剪为255×255,裁剪时超出的范围使用图像的RGB均值进行填充。
6.根据权利要求5所述一种基于CNN的三级信息融合视觉目标跟踪方法,其特征在于:所述改进后的VGG-11网络将网络层数从16层减少到11层,在2层与3层,4层与5层,7层与8层之间分别设置最大池化层。
7.根据权利要求6所述一种基于CNN的三级信息融合视觉目标跟踪方法,其特征在于:所述改进后的VGG-11网络将11层网络分为浅层、中层、深层三个级别,其中3和4层为浅层,
5、6和7层为中层,8、9和11层为深层。
8.根据权利要求1或6或7所述一种基于CNN的三级信息融合视觉目标跟踪方法,其特征在于:步骤S4所述构建三个层次的得分图,公式表示为:S(z,x)=f(φ(z),φ(x))
其中z表示模板图像,x表示检测图像,φ(·)表示图像的特征表示,f(·)表示相关操作,S(z,x)表示模板图像和检测图像之间的相似性。
9.根据权利要求8所述一种基于CNN的三级信息融合视觉目标跟踪方法,其特征在于:所述构建出最终得分图的公式为S(z,x)=S1(z,x)+S2(z,x)+S3(z,x),其中S1(z,x),S2(z,x),S3(z,x)分别表示浅层、中层、深层的得分图。