欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020111549662
申请人: 杭州电子科技大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于多时间步金字塔编解码器的目标跟踪方法,其特征在于,该方法首先获取包含模板帧的视频数据集合,然后进行如下操作:步骤(1).构建多时间步编码器,输入为视频帧序列与模板帧,输出为一组时序编码特征;

步骤(2).对时序编码特征进行卷积与池化操作,获得时序卷积核;

步骤(3).构建全局卷积模块,输入为成对的时序编码特征与时序卷积核,利用视频帧之间的不同跨度时序信息输出帧序列对应的长短期特征;

步骤(4).构建多尺度特征生成模型,输入为时序编码特征和长短期特征,利用金字塔解码器、全局卷积模块、多时间步编码器,获得帧序列的多尺度特征;

步骤(5).将帧序列的多尺度特征输入分类支路,获得多个目标前背景及候选中心点的预测概率,输入回归支路获得目标区域边界框的顶点预测位置,据此获得最终的目标边界框。

2.如权利要求1所述的一种基于多时间步金字塔编解码器的目标跟踪方法,其特征在于,步骤(1)具体方法是:(1-1).构建多时间步编码器,其中编码器由全卷积神经网络ResNet组成,编码器的数量为K+1个,对应视频连续的K帧和视频的模板帧,模板帧是指含目标边界框的视频首帧,K+

1个编码器组成了多时间步编码器;

(1-2).将高为H、宽为W的RGB视频帧I∈R3×H×W输入编码器,获得时序编码特征时序编码特征为多个神经网络中间层特征,根据神经网络中间层特征张量的Hi维度与Wi维度的不同分为S个阶段的时序编码特征,Hi×Wi表示分辨率,第i个阶段是指全卷积神经网络ResNet中由多个卷积层组成的模块;

(1-3).将视频的模板帧与连续的K个视频帧{I(1),I(T-K+1),...,I(T)}输入多时间步编码器,获得K+1组时序编码特征 其中j对应视频帧编号,这里除了j=1表示视频首帧外,其余的j=T-K+1到j=T为连续的K个视频帧,T表示单个视频的总帧数。

3.如权利要求2所述的一种基于多时间步金字塔编解码器的目标跟踪方法,其特征在于,步骤(2)具体方法是:(2-1).时序编码特征 通过两个结构相同但参数不共享的卷积层,获得两个中间特征表示 其中下标h表示对高度Hi进行操作,下标w表示对宽度Wi进行操作;

(2-2).对两个中间特征表示 与 分别进行高度Hi维度上和宽度Wi维度上的平均池化,获得高度卷积核 和宽度卷积核 即为时序卷积核。

4.如权利要求3所述的一种基于多时间步金字塔编解码器的目标跟踪方法,其特征在于,步骤(3)具体方法是:(3-1).构建全局卷积模块,全局卷积模块由多个自定义逐层卷积操作组成;

(3-2).自定义逐层卷积的具体操作如下:当输入为成对的时序编码特征 与时序卷积核 时,某一通道的逐层卷积操作表示为 其中,上标o表示输出(Output), 表示输出的长短期特征在Ci维度中的第l层特征矩阵,长短期特征是指长期特征和短期特征;fl表示时序编码特征在Ci维度的第l层特征矩阵, 和 分别表示时序卷积核中的高度卷积核 与宽度卷积核 在Ci维度中的第l层特征矩阵,符号“*”表示普通卷积操作;将特征矩阵沿着Ci维度叠加获得短期特征当输入为当前帧的时序编码特征 与视频首帧的时序卷积核 时,通过相同的上述操作,获得长期特征

(3-3).不同跨度时序信息包括当前帧的时序编码特征 与前一帧的时序卷积核通过自定义逐层卷积构建的短期时序信息,以及当前帧的时序编码特征 与视频首帧的时序卷积核 通过自定义逐层卷积构建的长期时序信息。

5.如权利要求4所述的一种基于多时间步金字塔编解码器的目标跟踪方法,其特征在于,步骤(4)具体方法是:(4-1).多尺度特征生成模型包括金字塔解码器、全局卷积模块、多时间步编码器等模块;

(4-2).金字塔解码器由S个上采样优化子模块顺序组成,即 这里refine(j)(·)函数映射包含多个卷积层与上采样层并称之为上采样优化子模块,对应(1-1)的多时间步编码器的S个阶段;

(4-3).利用(3-2)的全局卷积模块获得短期特征 并输入上采样优化子模块,获得短期响应特征 即若存在前一个上采样优化子模块输出的特征表示 则将短期特征与特征表示 相加并输入上采样优化子模块,得到短期响应特征:(4-4).将短期响应特征 输入(1-1)的多时间步编码器,并与初始的时序编码特征相加后输入(1-1)的编码器,获得优化后的短期响应特征(4-5).将优化后的短期响应特征 作为时序编码特征经过(3-2)的全局卷积模块获得长期特征(4-6).将长期特征 输入至金字塔解码器,获得视频帧序列的多尺度特征

6.如权利要求5所述的一种基于多时间步金字塔编解码器的目标跟踪方法,其特征在于,步骤(5)具体方法是:(5-1).构建分类支路,分类支路由分类卷积模块与中心卷积模块组成,这两个卷积模块均由两个全卷积层组成,并且每一个分辨率的多尺度特征对应一个分类支路,共计S个分类支路,对应(1-1)中编码器的S个阶段;分类卷积模块用于区分输入的帧序列像素点属于前景或背景的概率,中心卷积模块用于区分输入的帧序列像素点属于目标候选中心点的概率;

①将多尺度特征 输入至分类卷积模块,获得目标分类预测张量 由两个维度为hi×wi矩阵组成,第一个矩阵元素表示属于前景目标的概率,第二个矩阵元素表示属于背景的概率;

②将多尺度特征 输入至中心卷积模块,获得目标候选中心点预测矩阵矩阵的每个元素表示属于目标中心点的概率;

(5-2).构建S个由回归卷积模块组成的回归支路,对应编码器的S个阶段,其中回归卷积模块均为全卷积层且每种分辨率的多尺度特征对应一个回归支路;将多尺度特征 输入回归卷积模块获得目标顶点的预测张量 该张量由四个大小为hi×wi的矩阵堆叠组成,这四个矩阵对应位置元素依次表示目标边界框左上顶点的横坐标、纵坐标以及右下顶点的横坐标、纵坐标,也即相对于当前位置的四个偏移量;

(5-3).将S组预测结果 通过双线性插值将后两个维度hi×wi缩放至H×W,利用均值策略加权求和获得最终的预测张量集合

为可学习的神经网络参

数;

(j)

(5-4).根据目标分类预测张量P 中前景目标的概率高低选取前N个目标向量(5-5).根据选取的前N个目标向量从目标候选中心点预测矩阵Q(j)选取对应位置的N个中心向量 从目标候选中心点预测矩阵Q(j)选取属于目标中心点概率最高的向量二维坐标(x,y);

(5-6).根据目标中心点的二维坐标(x,y)获得目标顶点预测张量R(j)对应的位置元素向量r(j)∈R4,即目标左上顶点和右下顶点的位移偏置向量[xlu,ylu,xrd,yrd],从而求得左上顶点坐标(x+xlu,y+ylu)和右下顶点坐标(x+xrd,y+yrd),据此坐标值确定一个矩形区域,即目标的最终边界框。