1.一种基于双重注意力特征融合网络的目标跟踪方法,其特征在于,所述方法包括如下步骤:步骤一,初始化卷积:
在孪生网络框架下,初始化第一帧的模板分支图像与后续搜索帧的搜索区域图像,通过四层深度卷积神经网络以分别得到模板图像特征与搜索区域特征;
步骤二,特征学习:
通过框注意力与实例注意力构建得到基于Transformer的多尺度特征融合网络;
通过基于框注意力的Transformer编码器对所述模板图像特征进行学习,以得到多尺度的高置信值目标建议框;
将所述多尺度的高置信值目标建议框输入到基于实例注意力的Transformer解码器中,同时对所述搜索区域特征进行学习,通过对特征学习后的模板图像特征与特征学习后的搜索区域特征进行融合,以获取得到置信值最高的目标建议框;
步骤三,网络训练:
利用大规模数据集对所述基于Transformer的多尺度特征融合网络进行训练,并对所述基于Transformer的多尺度特征融合网络模型中的模型参数进行调整;
步骤四,学习聚合:
利用经过训练后的所述基于Transformer的多尺度特征融合网络,对所述模板分支图像上的目标特征和搜索区域图像上的目标特征的局部区域进行学习,以分别得到对应的局部语义信息,然后分别通过多头框注意力模块和多头实例注意力模块对各所述局部语义信息进行聚合以得到全局上下文信息;
步骤五,目标框计算:
利用所述基于Transformer的多尺度特征融合网络中的Transformer编码器,通过预定义的参考窗口进行几何变换以生成感兴趣的框,从而捕获得到包含多尺度的高置信值目标建议框,并利用所述Transformer解码器对所述多尺度的高置信值目标建议框进行细化,得到包含最大置信度得分的候选框;其中,框注意力在每个候选框中采样一个网格,并计算网格特征中采样特征的注意力权重;
步骤六,目标跟踪:
利用将模板图像特征和搜索区域特征融合后的特征,送入到分类回归预测头以得到跟踪目标在搜索区域的最大响应位置,从而进行跟踪。
2.根据权利要求1所述的基于双重注意力特征融合网络的目标跟踪方法,其特征在于,在所述步骤二中,框注意力的计算公式表示为:;
其中, 表示第i个头的框注意力, 表示框注意力函数,表示查询向量,表示键向量, 表示值向量, 表示归一化函数, 表示转置操作, ,, , 表示实数集, 表示输入特征图的高乘宽所得到的值,表示网格特征图的边长,表示通道数, 表示一个头时特征的维度。
3.根据权利要求2所述的基于双重注意力特征融合网络的目标跟踪方法,其特征在于,在所述多头框注意力模块中,第 个注意力头的框注意力的计算方法包括如下步骤:给定查询向量 的感兴趣框 ,使用双线性插值从感兴趣框 中提取出大小为 的网格特征图 ;
利用位置注意模块将网格特征图 转换为关注区域,以使得注意力区域适应目标的外观变化;
通过计算查询向量 和键向量 之间的矩阵乘法以生成得到框注意力系数;
利用softmax函数计算框注意力系数以得到查询向量 和键向量 之间的相似性得分,通过计算相似性得分 和网格特征图 的线性变换矩阵 的加权平均值以得到最终的框注意力 。
4.根据权利要求3所述的基于双重注意力特征融合网络的目标跟踪方法,其特征在于,对所述网格特征图 而言,网格特征图 满足如下属性:;
对所述框注意力 而言,框注意力 满足如下属性:
。
5.根据权利要求4所述的基于双重注意力特征融合网络的目标跟踪方法,其特征在于,在计算框注意力时,位置注意模块的使用方法包括如下步骤:利用 表示查询向量 的参考窗口, ,其中, 分别表示参考窗口的中心位置的横坐标与纵坐标, 分别表示参考窗口的宽度与高度;
利用第一转换函数 对参考窗口 进行转换,第一转换函数 将查询向量 和参考窗口 作为输入,用于移动参考窗口的中心位置;
利用第二转换函数 对参考窗口 进行调整,第二转换函数 将查询向量 和参考窗口 作为输入,用于调整参考窗口的大小。
6.根据权利要求5所述的基于双重注意力特征融合网络的目标跟踪方法,其特征在于,第一转换函数 对应的计算公式表示为:;
其中, 表示参考窗口 的中心位置的横坐标偏移量, 表示参考窗口 的中心位置的纵坐标偏移量;
第二转换函数 对应的计算公式表示为:
;
其中, 表示参考窗口 的宽度大小偏移量, 表示参考窗口 的高度大小偏移量。
7.根据权利要求6所述的基于双重注意力特征融合网络的目标跟踪方法,其特征在于,偏移参数 通过查询向量 的线性投影来实现,对应的计算公式表示为:;
;
;
;
其中, 表示横坐标x的线性投影参数, 表示纵坐标y的线性投影参数, 表示参考窗口宽度的线性投影参数, 表示参考窗口高度的线性投影参数, 表示横坐标x的线性投影的偏置, 表示纵坐标y的线性投影的偏置, 表示参考窗口宽度的线性投影偏置,表示参考窗口高度的线性投影偏置,表示温度参数。
8.根据权利要求7所述的基于双重注意力特征融合网络的目标跟踪方法,其特征在于,参考窗口 的转换结果由第一转换函数 与第二转换函数 共同决定,对应的计算公式表示为:;
其中, 表示转换后的参考窗口, 表示转换函数操作。
9.根据权利要求8所述的基于双重注意力特征融合网络的目标跟踪方法,其特征在于,所述多头实例注意力模块的运算方法包括如下步骤:通过在基于框注意力的Transformer编码器中使用框注意力生成包含多尺度的高置信值目标建议框,并发送到Transformer解码器中;
通过在Transformer解码器中利用实例注意力对高置信值目标建议框进行细化操作,其中,Transformer解码器中的每一个解码器层均包含实例注意力,且在每个前向传播层均连接一个具有残差结构的相加实例归一化层;
根据Transformer解码器中的高置信值目标建议框,实例注意力以高置信值目标建议框中的网格特征为输入,从而得到置信值最高的目标建议框。
10.一种基于双重注意力特征融合网络的目标跟踪系统,其特征在于,所述系统执行如权利要求1至9任意一项所述的基于双重注意力特征融合网络的目标跟踪方法,所述系统包括:初始化卷积模块,用于:
在孪生网络框架下,初始化第一帧的模板分支图像与后续搜索帧的搜索区域图像,通过四层深度卷积神经网络以分别得到模板图像特征与搜索区域特征;
特征学习模块,用于:
通过框注意力与实例注意力构建得到基于Transformer的多尺度特征融合网络;
通过基于框注意力的Transformer编码器对所述模板图像特征进行学习,以得到多尺度的高置信值目标建议框;
将所述多尺度的高置信值目标建议框输入到基于实例注意力的Transformer解码器中,同时对所述搜索区域特征进行学习,通过对特征学习后的模板图像特征与特征学习后的搜索区域特征进行融合,以获取得到置信值最高的目标建议框;
网络训练模块,用于:
利用大规模数据集对所述基于Transformer的多尺度特征融合网络进行训练,并对所述基于Transformer的多尺度特征融合网络模型中的模型参数进行调整;
学习聚合模块,用于:
利用经过训练后的所述基于Transformer的多尺度特征融合网络,对所述模板分支图像上的目标特征和搜索区域图像上的目标特征的局部区域进行学习,以分别得到对应的局部语义信息,然后分别通过多头框注意力模块和多头实例注意力模块对各所述局部语义信息进行聚合以得到全局上下文信息;
目标框计算模块,用于:
利用所述基于Transformer的多尺度特征融合网络中的Transformer编码器,通过预定义的参考窗口进行几何变换以生成感兴趣的框,从而捕获得到包含多尺度的高置信值目标建议框,并利用所述Transformer解码器对所述多尺度的高置信值目标建议框进行细化,得到包含最大置信度得分的候选框;其中,框注意力在每个候选框中采样一个网格,并计算网格特征中采样特征的注意力权重;
目标跟踪模块,用于:
利用将模板图像特征和搜索区域特征融合后的特征,送入到分类回归预测头以得到跟踪目标在搜索区域的最大响应位置,从而进行跟踪。