1.一种基于图卷积与轨迹卷积网络学习的目标跟踪方法,包括如下步骤:步骤一、目标选取
从初始图像序列中选择并确定要跟踪的目标对象,选取目标对象过程是通过运动目标检测方法自动提取或者人机交互方法手动指定;
步骤二、训练数据集的生成
训练数据集生成分为两个步骤,首先是数据集的选取,然后是数据集的制作;选取大型分类识别视频数据集ImageNet Video,将其所有图像均标记对应的目标对象位置坐标,然后通过已知标签制作训练数据集,该数据集一共具有4500类视频,从每一类视频数据中,按照两种不同选取规则进行数据集的制作;具体为,连续取16帧图像(I1,I2,...,I16)作为一组训练数据集和每2帧图像取1帧(I1,I3,..,I31)作为一组训练数据集,其中I表示一帧图像,采样图像帧数均为16帧,最终生成56250组训练集,图像帧尺寸均归一化为224×224像素;
步骤三、图卷积与轨迹卷积网络的构建与训练网络模型分三个部分,即双流特征提取层、候选轨迹提取层和目标定位层;其中,双流特征提取层采用图卷积和轨迹卷积的结构共同提取;图卷积的具体操作为:首先将目标对象划分图节点,或者称其为“部位”,具体划分为M个相同大小的网格,每个图节点为同一个网格结构,同时构造一个无向权重图G=(ν,W),它包含图节点ν和连接各图节点的边的权重W;需要对连续16帧图像的前、后帧之间的图节点的边进行权重初始化,这里使用{0,1}初始化权重,也就是Wij∈{0,1},其中i为第t帧的图节点,j为第t+1帧的图节点;设定每个图节点只与直接相邻的四个图节点相连,且权重为1,其余为0;网络结构采用在ImageNet上预训练的Alexnet网络的前五层,并将两层图卷积层增加至其后,输出特征F则计算为F=WX,X为经过Alexnet五层网络后,每个图节点的特征,每一帧图像得到h×w×256的图卷积特征,连续的16帧图像最后输出得到T×h×w×256的图卷积特征;其中,T为视频图像序列的帧数,这里T=16,h为特征高度,w为特征宽度,256为特征通道数;
轨迹卷积的具体操作为:已知16帧图像中每一帧图像的目标位置,每个目标位置均表示为x,y,w,h,其中x,y,w,h分别表示该目标位置的中心横坐标、中心纵坐标、宽度和高度,将连续16帧图像的前、后帧之间的目标位置连接,获得目标运动轨迹;轨迹卷积采用在ImageNet上预训练的C3D网络的前五层,给定时间t时刻的输入特征图xt(p),输出特征图为yt(p),轨迹卷积的卷积核参数{Wτ:τ∈[0,Δt]}和核参数大小Δt‑1,这里Δt=16,输出特征图yt(p)则计算为 将每一帧图像得到的图卷积特征输入轨迹卷积中,最后得到连续的16帧图像轨迹卷积特征,其尺寸维度为T×h×w×256;最后将图卷积与轨迹卷积联结而成T×h×w×512的维度特征,其中T为视频图像序列的帧数,这里T=16,h为特征高度,w为特征宽度,512为特征通道数;
以上一帧图像目标位置为中心,并以4倍大小于该目标在当前输入帧构成目标关注区域,在目标关注区域里采用滑动搜索窗的方法获取目标候选块,采用的搜索窗的长宽比分别为1:1、1:2、2:1,从目标关注区域的初始坐标位置开始移动,直到搜索完目标关注区域为止,将搜索窗选取的图像块作为目标候选块,并将其尺度归一化为与目标对象相同的大小,每一个目标候选块都与其前16帧图像目标位置连接而成新的目标运动轨迹,然后将这连续的17帧图像的双流特征经过LSTM结构,得到N个目标候选轨迹,维度为N×4,其中N为目标候选轨迹数量,4代表每一帧图像目标位置的4个位置坐标,具体为设置目标候选轨迹网络的损失函数为 T为图像帧数,Δθ为坐标预测值与真实值的偏移,设当前输入帧的目标候选块的位置坐标表示为x0,y0,w0,h0,其中x0,y0,w0,h0分别表示该目标候选块的中心横坐标、中心纵坐标、宽度和高度,而坐标预测的偏移值为Δx0,Δy0,Δw0,Δh0,则各目标候选块坐标为x0+Δx0,y0+Δy0,w0+Δw0,h0+Δh0,将连续16帧图像的目标运动轨迹与各目标候选块连接而成目标候选轨迹,最终通过学习目标运动规律得到N个目标候选轨迹,再将N个目标候选轨迹的双流特征输入全连接层进行分类,网络分类损失函数设置为交叉熵损失;
网络构建完成后,使用步骤二生成的训练数据集对网络进行训练,训练方法采用经典的随机梯度下降法,训练完成后,网络将输出每一个目标候选轨迹的置信度,然后选取最大置信度的目标候选轨迹作为目标运动轨迹,再取目标运动轨迹的最后一帧图像的目标位置为目标图像块,从而获得目标定位的初始能力;
步骤四、图像序列输入
图卷积与轨迹卷积网络训练完成后,在实时处理情况下,提取通过摄像头采集并保存在存储区的视频图像,作为要进行跟踪的输入图像;在离线处理情况下,将已采 集的视频文件分解为多个帧组成的图像序列,按照时间顺序,提取连续16帧图像作为输入图像序列,如果输入图像帧数不等于16,则整个流程中止;
步骤五、目标候选轨迹的生成
将这些连续的16帧图像中的目标对象按照步骤三中的方法,将所述的目标对象划分为M个图节点,同时,将这16帧图像的前、后帧之间目标对象的位置连接,获得目标运动轨迹,并输入双流特征提取层,提取得到尺寸维度为T×h×w×512的双流特征,再经过图卷积与轨迹卷积网络的候选轨迹提取层得到N个目标候选轨迹,维度为N×4,其中N为目标候选轨迹数量,4代表每一帧目标的4个位置坐标;
步骤六、目标定位
将步骤五得到的目标候选轨迹最终经过全连接层进行分类,网络将输出每一个目标候选轨迹的置信度,然后选取最大置信度的目标候选轨迹作为目标运动轨迹,再取目标运动轨迹的最后一帧的目标位置为目标图像块,从而获得目标定位的初始能力,目标定位完成;
步骤七、网络在线更新
成功确定跟踪的目标结果之后,将步骤六定位得到的当前输入图像帧的目标对象及位置坐标输入初始训练集的16帧图像序列末尾,同时删除16帧图像序列的首帧,更新为新的训练集,表示为(I2,...,I17);然后跳转到步骤四,重新得到新的连续16帧图像的训练集,实时动态调整目标运动轨迹,进行网络在线学习,实现网络的微调更新,进行新一轮的目标定位。