1.一种基于时空特征融合学习的目标跟踪方法,包含如下步骤:
步骤一、目标选取:
从初始图像中选择并确定要跟踪的目标对象,目标选取过程通过运动目标检测方法自动提取或者人机交互方法手动指定;
步骤二、数据集生成:
初始数据集的生成包括两个部分,一个部分为目前公开获得的有标注视频数据集或图像序列集,另一个部分是根据初始图像来人工合成的跟踪序列;人工合成的跟踪序列具体包括两个方面的工作,一方面对初始图像中的目标对象进行图像变换,包括平面内旋转、平面外旋转或者尺度变化,另一方面对目标对象在整个场景中进行按行或列循环移动,由此获得大量模拟的跟踪序列数据集;具体操作如下:首先是根据图像序列第一帧目标对象包围盒的真实坐标值将目标对象从背景中裁剪,对被裁剪的区域位置进行邻域像素填充,得到场景图像,然后对目标对象分别进行平面内旋转、平面外旋转或者尺度变换,其中,平面内旋转范围为0°~360°,单次旋转角度为30°,平面外旋转采用仿射变换,设置仿射变换矩阵中透射变换因子权重值变换范围为0.5~1,单次变换单位为0.1,尺度变换比例范围为0.8~1.2倍,单次变换比例为0.1,得到410种目标对象增强数据集;设置步长为10像素,并分别将这410种目标对象增强数据集在场景图像中按行循环移动,最终得到41763张图片增强数据集,图片增强数据集中包含的所有图像均标记其对应的目标对象包围盒的位置信息;
步骤三、时空特征融合学习网络的构建与初始化:
时空特征融合学习网络模型包括三个子网络,分别为目标空间特征提取网络、背景空间特征提取网络和时序特征提取网络;
目标空间特征提取网络采用YOLOv3网络,该网络特征提取层为Darknet-53结构,共有
53个卷积层,其余为残差层;其中卷积层包括1x1卷积层和3x3卷积层,这里采用Darknet-53的第53层全连接层输出的1000维神经元提取目标的空间特征;
背景空间特征提取网络采用Alexnet网络模型,该网络模型结构是由8层网络组成,包括5层卷积层和3层全连接层,这里采用第7层全连接层输出的4096维神经元组成的特征提取背景空间特征;
时序特征提取网络采用Alexnet网络和LSTM相结合的方式提取,先经过Alexnet网络第
7层全连接层输出的4096维神经元提取图像背景的全局特征,然后经过LSTM提取图像序列中的时序特征;
构建网络模型后,采用在ImageNet数据集上预先训练好的网络模型参数对所需训练网络进行参数初始化,该网络模型参数包含神经元之间的连接权重值、偏置值,并采用训练数据集对网络进行训练;网络训练具体步骤是,先训练空间特征提取网络,再训练时序特征提取网络;当训练空间特征网络时,需要固定时序特征网络的权重;空间特征提取网络训练流程是先进行目标特征提取网络的训练,再在YOLOv3后添加一层LSTM,训练规则是输入2组图像序列,图像尺寸归一化为224x224像素,第一组序列为{It-1、It-2、It-3、It-4},第二组序列为{It-2、It-3、It-4、It-5},其中It-1、It-2、It-3、It-4、It-5分别代表t-1、t-2、t-3、t-
4、t-5时刻的帧图像,5
步骤四、图像输入:
在实时处理情况下,提取通过摄像头采集并保存在存储区的视频图像,作为要进行跟踪的输入图像;在离线处理情况下,将已釆集的视频文件分解为多个帧组成的图像序列,按照时间顺序,逐个提取帧图像作为输入图像,如果输入图像为空,则整个流程中止;
步骤五、目标定位:
网络训练完毕后,将输入图像尺寸归一化为网络输入端所需的尺寸224x224像素,然后经过网络的正向处理后能得到目标对象包围盒的位置和置信度p,并将置信度p和阈值进行比较,如果该得分p小于预先设置的阈值0.8,则认为目标跟踪失败,表示目标不可信,跳转到步骤四,否则,则认为目标跟踪正确,并将对应的目标对象包围盒的位置坐标保存在跟踪结果中,从而得到跟踪的结果,目标定位完成,跳转到步骤六;
步骤六、网络在线学习:
成功确定跟踪的结果之后,再以该目标对象包围盒的真实位置为中心,在周围提取所需数量的正样本和负样本,这些样本的提取规则是:当提取的图像块与包围盒的真实位置的重合率IOU大于0.8的时候,定义为正样本,当重合率小于0.2的时候,则定义为负样本;在线学习微调网络模型参数时,将这些提取的正、负训练样本数据集依次输入网络中,固定网络模型的卷积层参数不动,只对网络的全连接层的参数进行微调,目的是使该网络模型能够适应当前跟踪的视频序列,即能够区分当前视频序列中的目标和背景。