欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2021102997607
申请人: 浙江师范大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2023-08-24
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于层次化决策网络的鲁棒目标跟踪方法,其特征在于:包括以下步骤:步骤一、将目标跟踪问题建模为强化学习中的马尔科夫决策过程,并定义由状态S、动作A、奖励函数R和状态转移函数f构成的四元组;

步骤二、对公共视频数据集GOT‑10K的测试集进行预处理,选择N帧作为片段,根据标签裁剪、放缩图片,构造若干个训练图像对;

步骤三、采用PyTorch深度学习框架搭建层次化决策网络模型,由通用的孪生特征提取网络、嵌入融合模块、策略网络和演员‑评论家网络组成;

所述步骤三中基于层次化决策网络框架由策略网络、演员网络、评论家网络和一个共享的通用孪生特征提取网络组成,具体的建模步骤如下:第一步,搭建ResNet‑18特征提取网络,使用ImageNet预训练的网络参数初始化ResNet‑18;并使用全连接层将ResNet‑18网络提取的深层特征进行线性化,得到512维的特征向量;然后通过特征级联操作和一个全连接层对两个分支的线性化特征向量进行嵌入融合,获得相邻帧目标的运动信息;

第二步,构建演员‑评论家网络,由两层512个神经元的全连接层、带有512个神经元的单层长短时记忆模块LSTM构成;演员网络的输出是4维的向量,即表示连续动作空间;评论家网络的输出是1维的向量,表示当前状态的预测值;

第三步,构建策略网络,策略网络包括两层带有512个神经元和ReLU激活函数构成的全连接层以及输出层;其中输出层是4维的向量,代表预定义的离散动作空间{搜索,停止,更新,重启};

步骤四、使用A3C和PG强化学习算法分别对演员‑评论家网络和策略网络进行端到端的离线训练,并采用Adam优化器来优化模型参数;

步骤四中通过深度强化学习算法对网络模型进行离线训练,具体包括:使用A3C强化学习算法来训练演员‑评论家网络,利用M个并行且独立的智能体与环境π

交互;并根据收集的训练样本对异步地更新网络参数,共同对策略函数π(a|s)和值函数V(s)进行建模;并充分利用优势状态动作值函数A(s,a),每个动作的重要性度量表示为:π π

A(s,a)=Q(a|s)‑V(s);

根据A3C算法,演员网络和评论家网络的代价函数分别表示为:策略网络优化的离散动作空间,采用Policy Gradient算法优化关于未来奖励期望J的策略网络,J被公式化为:

p p

Jπ(θ)=E(R1:∞;π(p|s;θ))具体地,给定N条交互轨迹τ,通过最小化策略梯度的损失函数LP来以端到端的方式训练策略网络:

因此,通过随机策略梯度或值函数回归方式来更新网络的参数:步骤五、保存训练收敛的模型,并在若干个跟踪数据集上评估层次化决策网络模型在线跟踪的性能指标。

2.如权利要求1所述的一种基于层次化决策网络的鲁棒目标跟踪方法,其特征在于:步骤一中马尔科夫决策过程具体包括:状态:给定目标的边界框b=[x,y,w,h],分别表示中心坐标,宽度和高度,状态S被定义为一对图像块;

具体地,St=φ(bt‑1,μ,Ft‑1,Ft),其中μ表示缩放比例,φ(·)表示在帧Ft‑1和Ft中对缩放的图像块[xt‑1,yt‑1,μ·wt‑1,μ·ht‑1]进行裁剪,并将这些裁剪后的图像块重新调整为固定大小;

动作A包括演员智能体动作和策略智能体动作;

演员智能体动作:at=[Δxt,Δyt,Δwt,Δht],动作at描述了所跟踪对象位置的相对运动;其中Δx和Δy表示相对水平和垂直平移,而Δw和Δh表示宽度和高度的相对比例变化;

对于当前状态st=φ(bt‑1,μ,Ft‑1,Ft),执行动作at,得到bt=[xt,yt,wt,ht]:策略智能体动作:p∈{搜索,停止,更新,重启},其中p={搜索}表示继续搜索并再次预测目标的相对运动,而p={停止}表示停止搜索并转到下一帧;

对于动作{更新}和{重启},表示当前的观察状态效果不佳或目标可能丢失;

状态转移:给定状态st,执行动作at,从而获得当前预测的边界框bt,同时,状态st通过执行预处理函数φ(bt,μ,Ft‑1,Ft)转换为st+1;

奖励函数R包括演员智能体奖励函数和策略智能体奖励函数;

演员智能体奖励函数:r(s,a)是基于预测框b和真值g之间的交并比IoU来设计的,其中ω(z)=2z‑1,将IoU的值控制在[0,1];

策略智能体奖励函数:

对于动作{搜索},可基于

ΔIoU=IoU(b(t,k+1),gt)‑IoU(b(t,k),gt)来定义:

对于动作{停止},奖励函数根据IoU和迭代次数k来定义:对于动作{更新}和{重启},当IoU小于∈时,奖励为正:

3.如权利要求2所述的一种基于层次化决策网络的鲁棒目标跟踪方法,其特征在于:策e

略智能体采用专家跟踪器行为b来指导模型的更新和重新初始化。

4.如权利要求1所述的一种基于层次化决策网络的鲁棒目标跟踪方法,其特征在于:所述步骤五的在线跟踪具体包括以下步骤:第一步,给定前一帧的跟踪结果,以1.5倍边界框的比例裁剪相邻两帧图片,并调整其分辨率为128×128×3,从而作为网络模型的输入;

第二步,提取目标相邻帧之间的运动信息St,演员智能体输出一个连续动作 来执行一次搜索,从而获得目标的运动估计 并转移到下一个状态第三步,策略智能体根据当前观察状态 来决定当前的跟踪模式,决定是否继续搜索,直到不再搜索为止;

第四步,确定当前帧的跟踪结果,即目标的位置信息bt=[xt,yt,wt,ht];

第五步,进入下一帧t+1,并重复第一到第四步。

5.如权利要求3所述的一种基于层次化决策网络的鲁棒目标跟踪方法,其特征在于:在线跟踪阶段的所述第三步的跟踪模式具体包括以下:一、搜索,即继续搜索,再一次执行演员网络得到目标的运动估计二、停止,即当前运动估计的置信度是比较高的,无需继续搜索;

三、更新,表示当前的观察状态不佳,需要执行更新操作;

通过专家跟踪器行为指导来替代耗时的模型在线更新;

e

四、重启,表示目标可能丢失,同样启动专家跟踪器DiMP来预测当前帧的目标位置b,并用来重新初始化当前帧的跟踪结果。

6.一种存储在计算机可读介质上的计算机程序产品,包括计算机可读程序,供于电子装置上执行时,其特征在于:提供用户输入接口以实施如权利要求1至5任意一项所述鲁棒目标跟踪方法。

7.一种执行权利要求1至5任意一项所述鲁棒目标跟踪方法的移动设备系统。