1.一种面向卷积神经网络的自适应特征选择视频目标跟踪方法,其特征在于:所述方法包括以下步骤:
1)多层CNN特征提取,过程如下:
在给定(t)时刻视频帧和(t-1)时刻的目标位置pt-1首先确定目标搜索区域R(pt-1),其尺度为M*N,然后根据VGG-Net的需要用图像插值方法将搜索区域的图像尺度进行调整,网路不同层的输出作为提取到的多层卷积特征,将提取到的特征图乘余弦窗以消除由于图像的边缘效应而导致的特征图不连续的现象;
2)训练相关滤波器,过程如下:
将VGG-Net五个池化层的输出作为目标的多通道卷积神经网络特征X∈RM×N×D,其中M,N,D分别表示特征图的宽度、高度和通道数,Xm,n,(m,n)∈{0,1,......,M-1}×{0,
1,......,N-1}表示特征X的循环变换,在训练过程的特征的每一次变换对应的标签Y定义为以(M/2,N/2)为中心的零均值2D高斯分布:由于相关滤波器训练过程是在频域内进行的因此我们对样本X和标签Y分别做快速离散傅里叶变换FFT, 式中 代表快速傅里叶变换,x和y分别代表傅里叶变换后的目标特征和标签的频域表示,相关滤波器是通过求解式(2)得到式中λ≥0是规则化参数,相关滤波器能够通过稠密采样的方式求解权重参数 因为信号处理理论可以利用矩阵的循环结构将时域内的卷积转化为每个样本在频域内的乘积运算,式(2)的优化问题存在闭环解结构,在特征的d∈[1,2,3,......,D]通道求解的模型参数有如下结构;
在跟踪过程中根据前一帧目标位置pt-1我们选定被跟踪目标的搜索区域R(pt-1),将其通过VGG-Net前向传播的结果表示为Zd:Zd=VGG*R(pt-1),(d∈[1,2,3,......,D]) (5)式中*表示图像经过VGG-Net的前向传播运算符,该特征对相关滤波器的响应表示为:其中 是卷积特征Zd在频域内的表示,符号 表示逆傅里叶变换,被跟踪目标位置 由S最大响应位置决定:
3)特征选择,过程如下:
首先计算卷积特征的平均特征
式中N代表来自VGG-Net不同层特征图数量,然后将卷积特征图减平均特征后再做高斯平滑处理得到F′i,如式(9):特征图之间的负欧式距离作为卷积神经网络特征图之间的相似度矩阵S(i,k)如式(10):该相似度矩阵S(i,k),(i∈{1,N},k∈{1,N}且i≠k)描述的是特征图Fk作为Fi聚类中心的合适程度,所有特征图之间的相似度全部取为负值,即相似度越大表示两个特征图之间距离越近,两者更可能隶属于同一类;当i=k时,P(i)=S(i,i)表示特征图作为聚类中心的参考度,由于在每个特征图作为聚类中心的概率相等,所以在参考度P(i)均取为等值的;
在聚类过程中特征图之间传递两种信息:响应度和可利用度,响应度r(i,k)描述特征图k适合作为特征图i的合适程度,该信息由点i传递到点k,迭代过程中更新策略如下式(12):可利用度a(i,k)描述特征图i选择特征图k作为聚类中心的合适程度,由k传递到i,第一次迭代时响应度r(i,k)用相似度S(i,k)减去特征图i与其他所有特征图之间最大的相似度值,可利用度a(i,k)=0,在此过程中适合做聚类中心的点其响应值r(i,k)为正,反之则为负;如式(10)所示当i=k时,特征图的自响应值r(k,k)为特征值得参考度P(i)减与特征图i有最大相似度的值,若其值为负则表明该点不适合作为聚类中心,在后续的迭代过程中特征图之间的可利用度a(i,k)会根据公式(13)更新:候选聚类中心特征图的可利用度反映的是特征图k作为聚类中心累计可靠程度,不适合作为中心的特征图的可利用度会迅速降到0以下,由于迭代过程,即式(14)和(15)中容易出现信息震荡而导致算法不收敛现象,以此在每次迭代前都要对r(i,k)和a(i,k)加一个阻尼系数λ∈[0.5,1):rnew(i,k)=λ·rold(i,k)+(1-λ)·r(i,k) (14)anew(i,k)=λ·aold(i,k)+(1-λ)·a(i,k) (15)
4)目标跟踪过程如下:
利用conv3-2,conv3-4,conv3-8,conv3-12,conv3-16五层的卷积特征作为目标特征观测,经过特征选择之后分别训练五个相关滤波器 然后通过加权投票最终决定目标位置(x*,y*),如式(16):每个相关滤波器的权重wk由在当前帧目标位置决定过程中的贡献率Ck决定,如式(17)和(18):权重参数wk根据学习率ρ在线更新:
wk=(1-ρ)wk+ρwk-1 (19)。