1.一种自适应时空学习与状态识别的目标跟踪方法,包括如下步骤:
步骤一、目标选取
从初始图像中选择并确定要跟踪的目标对象,提取其目标图像块;目标选取过程通过运动目标检测方法自动提取,或者通过人机交互方法手动指定;
步骤二、生成目标数据集
目标数据集包含目标检测数据集和目标识别数据集;对初始图像进行循环移动,并记录每次循环移动后目标在图像中相应的位置坐标,该位置坐标包含目标图像块的左上角横坐标和纵坐标、右下角横坐标和纵坐标,一共生成500个循环移动的图像及其对应的目标图像块坐标数据,构成目标检测数据集;根据步骤一中获得的目标图像块,对其进行平移、旋转、扭曲和遮挡操作,一共生成1500个变换后的图像块,构成目标识别数据集;
步骤三、构建自适应时空学习与状态识别网络
所述自适应时空学习与状态识别网络包含目标检测网络、目标恢复与状态识别网络、空间特征提取网络和时间特征提取网络,共四个部分;其中,目标检测网络基于Yolov3网络结构构建,包含生成器和判别器的目标恢复与状态识别网络基于GAN网络结构构建,空间特征提取网络基于ResNet-50网络结构构建,时间特征提取网络基于LSTM网络结构构建,所述时间特征提取网络的输入为空间特征提取网络ResNet-50的最后一个全连接层;
步骤四、网络离线训练
使用步骤二生成的目标数据集对自适应时空学习与状态识别网络进行训练;具体为,目标检测网络首先在COCO数据集上预训练,然后使用目标检测数据集对其进行再训练;使用目标识别数据集对目标恢复与状态识别网络进行训练,该网络的生成器的输出为恢复的目标图像块,判别器的输入为目标图像块和生成器的实际输出;空间特征提取网络在大规模数据集ImageNet上训练;时间特征提取网络使用目标识别数据集训练;训练方法采用Adam方法;
步骤五、图像输入
在实时处理情况下,提取通过摄像头采集并保存在存储区的视频图像,作为要进行跟踪的输入图像;在离线处理情况下,将已采集的视频文件分解为多个帧组成的图像序列,按照时间顺序,逐个提取帧图像作为输入图像;如果输入图像为空,则整个流程中止;
步骤六、目标ROI区域获取
使用目标检测网络对所述输入图像进行目标检测,获得包含目标的关注区域,即目标ROI区域;
步骤七、目标定位与状态识别
在步骤六获得的目标ROI区域内,在任何的位置以任何的大小和宽高比提取候选图像块,将候选图像块输入空间特征提取网络进行正向处理,然后将该网络最后一个全连接层的处理结果输入时间特征提取网络,经时间特征提取网络正向处理后获得候选图像块的目标置信度;将具有置信度最大值的候选图像块作为目标图像块,并将其对应的位置作为目标所在的位置,完成对当前帧图像的目标定位;之后,进行目标状态识别,具体为,将当前目标图像块输入目标恢复与状态识别网络进行正向处理,该网络的生成器输出恢复的目标图像块;采用NCC规则化交叉互相关方法计算恢复的目标图像块与目标图像块的相似度,并将该值作为目标的状态识别值s,完成对当前帧图像的目标状态识别;
步骤八、网络在线学习
如果目标的状态识别值s>0.6,则对自适应时空学习与状态识别网络进行在线学习,具体为,使用步骤七中所述的目标图像块以及其当前帧图像对目标检测网络进行微调训练;
同时使用步骤七中所述的目标图像块并采用Adam方法对目标恢复与状态识别网络和时间特征提取网络进行微调训练;跳转到步骤五。