1.基于3D卷积孪生神经网络和模板更新的目标跟踪方法,其特征在于,具体按照以下步骤实施:
步骤1、训练神经网络,由给定的初始目标位置在视频序列的第一帧图片上截取并传入神经网络生成目标模板;
步骤2、对于当前跟踪任务进行到的时刻t对应的视频序列图片,以时刻t‑1所得到跟踪结果为中心截取出不同尺寸的搜索区域,再以目标模板为卷积核对搜索区域进行卷积运算得到响应图;
步骤3、根据步骤2得到响应图,计算出响应图的APCE参数,如果达到阈值则说明跟踪效果较好,根据t时刻跟踪结果在t时刻对应视频序列中的图片上截取出目标图片,存入可靠集合V;
步骤4、如果可靠集合V存满,即长度为2,则将可靠集合V中保留的跟踪结果与步骤1中的初始目标模板共同传入3D孪生神经网络的模板分支得到混合了三帧目标信息的更新模板;
步骤5、使用混合后的更新模板对t+1时刻对应的视频序列中的图片继续跟踪任务,生成t+1时刻的响应图;
步骤6、再计算出步骤5得到的响应图的APCE参数判断是否保留,若保留则将可靠集合V中最老的图片进行替换,不断重复以上步骤直至跟踪结束,最终得到整个视频的跟踪结果,生成视频序列中每一帧图片中目标的位置信息,完成跟踪任务。
2.根据权利要求1所述的基于3D卷积孪生神经网络和模板更新的目标跟踪方法,其特征在于,所述步骤1采用3D卷积神经网络结构,3D卷积神经网络结构共分为五层,每层分别由卷积层和池化层组成,3D卷积神经网络结构的卷积核尺寸分别为:第一层:1*11*11;
第二层:1*5*5;
第三层:1*3*3;
第四层:1*3*3;
第五层:3*3*3。
3.根据权利要求2所述的基于3D卷积孪生神经网络和模板更新的目标跟踪方法,其特征在于,所述步骤1训练过程使用GOT‑10K数据集,从一个视频序列中随机抽取8对图片,然后进行数据增强,具体过程如下:
步骤1.1、首先对训练集中选择出的样本进行随机拉伸RandomStretch操作,拉伸后的尺寸倍数设置为0.095~1.005之间,放大后需要填充的部分使用线性插值法填充;然后进行中心裁剪CenterCrop操作,即从训练图片对的中心处裁剪出尺寸为263*263的区域,如果图片不够大,填充部分使用线性插值法,填充后再进行裁剪;接着进行随机裁剪RandomCrop操作,从训练图片对中的随机位置裁剪出大小为255*255的区域,同样,如果原图片不够大则先使用线性插值法填充后再进行裁剪;最后进行裁剪转换,原始的GOT‑10K数据集中图片的BOX,即目标位置框,以(left、top、weight、height)形式给出,也就是目标框距离图片左边框与上边框的距离和目标框本身的宽与高,通过裁剪转换操作将目标框坐标形式转化为(y、x、h、w)即中心点的坐标与目标框的高和宽;
步骤1.2、经过步骤1.1后训练图片成为最终的训练数据,这些训练数据对的尺寸为
127*127*3与255*255*3,在随机采样时会选取一个随机帧加上其前一帧与该视频序列第一帧以此模拟实际跟踪时的情形,将这三张处理后的127*127*3的图片进行堆叠得到尺寸为
3*3*255*255的输入数据,在传入神经网络后最终得到模板其尺寸为6*6*128;
步骤1.3、将对应的255*255*3的训练图片传入神经网络最终得到22*22*128的特征图,此时使用模板作为卷积核对该特征图进行卷积,最终得到尺寸为17*17*1的响应图;
步骤1.4、训练过程中的损失函数使用交叉熵损失,损失函数公式为:l(y,v)=log(1+exp(‑yv))其中,v代表最终响应图中每个像素点的实际取值,y代表该像素点的标签;
步骤1.5、在实际的训练过程中按照所有侯选位置的平均训练损失值计算损失其公式如下:
y[u]∈{+1,‑1}表示对于每一个位置u∈D的实际标签,v[u]表示D中u的值,D就是网络输出的最后的分数图;
步骤1.6、计算出交叉熵损失后,使用梯度下降法进行参数优化,SGD方法的计算公式如下:
argminθE(z,x,y)L(y,f(z,x;θ))以此可得到最优参数θ;
步骤1.7、经过50个训练周期和80000对训练图片的训练后孪生神经网络的最终训练损失值稳定在0.1以下,则训练过程结束;
在跟踪任务的开始时,需要进行目标模板的初始化,矩形框BOX包括目标的中心点坐标和宽高数据,根据矩形框BOX数据从视频序列第一帧图片中截取出尺寸为3x127x127的包含目标的图片传入3D卷积孪生神经网络,其输出尺寸为256x6x6的目标特征图,即模板,在初始化时将截取出的3x127x127的目标图片复制三份后传入3D卷积神经网络,模板生成的计算公式如下:
其中,z表示视频序列第一帧中按照矩形框BOX数据所截取出的目标图片, 表示3D孪生神经网络。
4.根据权利要求3所述的基于3D卷积孪生神经网络和模板更新的目标跟踪方法,其特征在于,所述步骤2具体如下:
步骤2.1、无论在截取搜索区域时按照多大的具体尺寸,都统一在截取后将图片拉伸或缩小为尺寸为3x255x255的三张图片,由此得到较小尺寸、原尺寸、较大尺寸三张尺寸为
3x255x255的图片x1、x2、x3;
步骤2.2、同步骤1,将x1、x2、x3各复制成3份传入3D卷积孪生神经网络得到搜索区域特征图X1、X2、X3,尺寸均为256x22x22;
步骤2.3、以当前的目标模板Z为卷积核对X1、X2、X3分别做卷积运算得到三张响应图,其尺寸均为1x17x17,其中选择响应值最大点所在的响应图为最终的响应图,选择响应值最大处坐标位置作为最终的跟踪结果,而跟踪目标的宽高变化取决于最终选择的是三种不同尺度变化的响应屠中的哪一张响应图,最终得到当前帧的跟踪结果BOX‑t(x,y,w,h)与响应图Rt(1x17x17)。
5.根据权利要求4所述的基于3D卷积孪生神经网络和模板更新的目标跟踪方法,其特征在于,所述步骤3采用APCE参数判断当前跟踪结果的可靠程度,具体如下:步骤3.1、APCE的计算公式如下:其中:
Fmax表示响应图中的最大值
Fmin表示响应图中的最小值
Fw,h表示响应图中对应像素点的值步骤3.2、使用步骤2中得到的响应图Rt(1x17x17)计算出峰值检测APCE值,与设定好的阈值λ进行对比,如果大于设定好的阈值则认为当前第t帧的视频序列跟踪效果较好,利用步骤2中的另一个结果BOX在第t帧的视频序列图像上截取出目标的图片,其尺寸为
3x127x127,并加入集合V,若集合V中已有2张存放的目标图片,则将其中较老的图片替换;
若响应图Rt计算出的峰值检测APCE值小于阈值,则认为此次跟踪结果的质量较低不能用来进行模板更新,但仍将此次跟踪生成的BOX作为跟踪结果返回。
6.根据权利要求5所述的基于3D卷积孪生神经网络和模板更新的目标跟踪方法,其特征在于,所述步骤4具体如下:
在跟踪任务的进行中,每当视频序列的最新一帧图片依据步骤1~3计算完毕后就判断可靠集合V是否已经存满,即长度为2,若集合存满则进行模板更新流程,即将视频序列第一帧图片在步骤1中截取出的目标图片t0和可靠集合V中的目标图片t1、t2在堆叠后形成尺寸为3*3*127*127的输入向量,传入3D孪生神经网络,得到的输出是尺寸为256*6*6的更新后模板Zt+1。
7.根据权利要求6所述的基于3D卷积孪生神经网络和模板更新的目标跟踪方法,其特征在于,所述步骤5具体如下:
假设在视频序列的第t帧完成跟踪时,满足了进行模板更新的条件,并按步骤4进行了模板更新生成新模板Zt+1,则对于视频序列的t+1帧,整体的跟踪流程仍然按照步骤1~3进行,但模板使用Zt+1,在得到第t+1帧的跟踪结果后,按照步骤4进行是否更新的判断。