1.一种分阶段目标跟踪方法,其特征在于:包括如下步骤:步骤S1:构建一个根据目标环境自适应切换候选跟踪器的智能体,并基于训练视频训练所述智能体;
其中,训练视频中每一帧图像中标记出了跟踪目标的位置;将当前帧的图像信息以及上一帧图像中跟踪目标的位置信息作为观测数据输入所述智能体,所述智能体的输出数据为每个候选跟踪器的候选值Q,将Q值最大的候选跟踪器作为当前帧图像对应的最佳候选跟踪器;
步骤S2:在线跟踪时,实时获取观测数据,并输入训练后的智能体选择出实时的最佳候选跟踪器,并利用最佳候选跟踪器进行实时目标跟踪;
步骤S1中所述智能体的训练过程如下:
首先,获取训练视频中的标记了跟踪目标位置的图像,再依次按照下述方法处理每一帧图像得到每一帧图像对应的奖励;
其中,将当前帧图像的观测数据输入所述智能体确定当前帧图像对应的最佳候选跟踪器,并分别执行最佳候选跟踪器和其他候选跟踪器得到当前帧图像的跟踪结果,再将各个跟踪结果与对应当前帧图像中跟踪目标的实际位置进行比较得到定位差异,并基于定位差异得到当前帧图像对应的奖励;
然后,进行智能体网络参数的更新,其中,调整过程的参考参数至少包含奖励;
接着,基于调整后的智能体再次处理下一视频;
循环上述过程,直至智能体训练完成;
所述智能体网络参数的更新过程为基于深度强化学习方法进行网络参数优化调整,其中,至少将每一帧图像的观测数据、决策、奖励作为每一帧图像的经验数据,参数的更新过程如下:随机抽取K1个连续时刻图像的经验数据,并将K1个连续时刻观测数据分别输入智能体得到最佳候选跟踪器的候选值Q;
然后,利用K1个连续时刻中K2个连续时刻的数据计算出K2个连续时刻中每一帧图像对应的训练误差,训练误差的计算公式如下:2
L=(yi‑Q(o,a|θ))
式中,L表示当前帧图像对应的训练误差,yi为书写定义,r表示当前帧图像对应的奖励,γ表示折算因子,o表示当前帧图像的观测数据,a表示当前帧图像对应的最佳候选跟踪器,Q(o,a|θ)表示当前帧图像的最佳候选跟踪器对应的候选值Q,θ表示智能体网络中需要更新的参数,o′表示下一帧图像的观测数据,a′下一帧图像对应的最佳候选跟踪器,表示在目标网络中下一帧图像的最佳候选跟踪器对应的候选值 所述目标网‑络与智能体的架构相同,参数更新时间不同,θ表示目标网络中延迟更新的参数;
基于训练误差采用梯度下降法对智能体的参数进行调整更新。
2.根据权利要求1所述的方法,其特征在于:每一帧图像对应的奖励按照如下公式确定:式中,rt表示第t帧图像对应的奖励,IoU表示重叠度,bt和 表示第t帧图像对应的决策at=i所对应跟踪最佳候选跟踪器的跟踪结果,i表示n个候选跟踪器中第i个跟踪器,gt表示第t帧图像中跟踪目标的实际位置,τ为设定的补偿值, 表示在当前第t帧图像中其他候选跟踪器的最终结果,重叠度的计算如下:IoU(u,v)=u∩v/u∪v
式中,u,v均为自定义的参数,用于表示重叠度的计算过程。
3.根据权利要求1所述的方法,其特征在于:所述智能体的网格架构包括:输入层、与输入层连接的卷积层、与卷积层连接的全连接层、与全连接层连接的长短时记忆网络、输出层。
4.根据权利要求3所述的方法,其特征在于:所述全连接层拼接用于稳定跟踪的若干个历史决策,所述历史决策为当前帧图像的前若干帧图像对应的决策,所述决策表示选择的最佳候选跟踪器。
5.根据权利要求1所述的方法,其特征在于:所述观测数据表示如下:ot=φ(bt‑1,Ft)
(t‑1) (t‑1) (t‑1) (t‑1)
式中,ot表示第t帧图像的观测数据,bt‑1=[x ,y ,h ,w ],bt‑1表示第t‑1帧(t‑1) (t‑1) (t‑1) (t‑1)图像的目标位置,(x ,y )是第t‑1帧图像中跟踪目标的中心位置,h 和w 分别表示第t‑1帧图像中跟踪目标的高度和宽度,Ft为第t帧图像的图像信息,φ表示一个根据目标位置裁剪图像信息并缩放的函数。
6.一种基于权利要求1‑5任一项所述方法的分阶段目标跟踪装置,其特征在于:包括视频数据处理模块、智能体构建模块、在线跟踪模块以及候选跟踪器模块;
其中,视频数据处理模块用于将视频进行拆分以及标记或获取视频中标记了跟踪目标位置的每一帧图像;
智能体构建模块用于构建自适应切换候选跟踪器的智能体并进行训练;
候选跟踪器模块为依据智能体的决策,对应候选跟踪器进行目标跟踪;
在线跟踪模块利用训练后所述智能体以及候选跟踪器模块实现实时在线跟踪。
7.一种基于权利要求1‑5任一项所述方法的终端,其特征在于:包括处理器和存储器,所述存储器内存储计算机程序,所述处理器调用所述计算机程序执行:构建智能体,训练智能体以及利用训练后的智能体和候选跟踪器进行实时跟踪。
8.一种基于权利要求1‑5任一项所述方法的可读存储介质,其特征在于:存储了计算机程序,所述计算机程序被处理器调用执行:构建智能体,训练智能体以及利用训练后的智能体和候选跟踪器进行实时跟踪。