1.一种基于可学习稀疏转换注意力机制的目标跟踪方法,其特征在于,所述方法包括如下步骤:
步骤一:对给定的第一帧目标框中的图像进行初始化以生成目标模板图像;
步骤二:在第二帧及后续帧中,以前一帧目标框中的图像的目标中心作为中心点,通过多尺度策略以获取得到多个搜索区域图像,并将多个所述搜索区域图像调整为相同尺寸大小;
步骤三:将所述目标模板图像与所述搜索区域图像输入到共享权值的卷积神经网络模型中,通过卷积神经网络分别提取得到目标模板深度特征以及搜索区域深度特征;
步骤四:基于可学习稀疏模型对所述目标模板深度特征以及所述搜索区域深度特征进行空间转换以及通道转换,以减少空间特征冗余以及通道间冗余;
步骤五:将经过可学习稀疏模型处理后的所述目标模板深度特征作为卷积核,对搜索区域图像进行滑窗操作,以得到多个得分图;
步骤六:根据多个得分图中得分值最大的位置,推测出前一帧目标框中的图像的目标中心在当前帧的相对位移,并通过多尺度策略获得目标跟踪图像的尺度变化,以实现目标的跟踪。
2.根据权利要求1所述的基于可学习稀疏转换注意力机制的目标跟踪方法,其特征在于,在所述步骤一中,第一帧目标框中的待跟踪的目标中心的坐标为 ,第一帧目标框中的待跟踪目标的高和宽分别为 和 ;
对应设置有一关联系数 ,表达式为:。
3.根据权利要求2所述的基于可学习稀疏转换注意力机制的目标跟踪方法,其特征在于,在所述步骤一中,通过关联系数 获得目标模板图像的边长 ,对应的表达式为:。
4.根据权利要求2所述的基于可学习稀疏转换注意力机制的目标跟踪方法,其特征在于,在所述步骤二中,搜索区域图像的边长 由关联系数 与前一帧目标框中图像的高和宽 计算得到,具体表示为:其中,当前一帧为第一帧时,图像的高和宽分别为 和 。
5.根据权利要求4所述的基于可学习稀疏转换注意力机制的目标跟踪方法,其特征在于,在所述步骤二中,在获取搜索区域图像的边长 的步骤之后,所述方法还包括:以前一帧目标框中图像的目标中心 作为中心点,通过分别以 作为不同边长,以获取不同的搜索区域图像,其中, ;
其中,多个所述搜索区域图像均调整为 的尺寸大小。
6.根据权利要求2所述的基于可学习稀疏转换注意力机制的目标跟踪方法,其特征在于,在所述步骤三中,通过卷积神经网络提取深度特征的步骤中,对应的卷积操作表示为:其中, 为输入特征, 为经过卷积操作后的输出特征, 为卷积核尺寸, 为输入图像的通道数, 为滑动窗口, 为滑动窗口 从输入特征 中提取的张量在 处的像素, 为第 个卷积核在 处的像素。
7.根据权利要求2所述的基于可学习稀疏转换注意力机制的目标跟踪方法,其特征在于,在所述步骤四中,在进行空间转换时,所述方法包括:通过连续的行与列变换以将输入的图像局部区域分解为不同频带,并对相应的列与行变换权重进行初始化;
具体表示为:
其中, 表示空间转换对应的权重, 表示克罗内克积, 与 分别表示列与行的变换初始权重。
8.根据权利要求2所述的基于可学习稀疏转换注意力机制的目标跟踪方法,其特征在于,所述步骤六具体包括:
在三个得分图中找到得分值最大位置 ,计算与前一帧目标框中图像的目标中心之间的相对位移;
根据所述相对位移,更新当前帧的目标跟踪图像的目标中心的位置以进行定位。
9.根据权利要求8所述的基于可学习稀疏转换注意力机制的目标跟踪方法,其特征在于,所述方法还包括:
根据三个得分图中得分值最大值所在的尺度,对当前帧的目标跟踪图像进行尺度更新;
其中,对应的尺度变化表示为:其中, 为尺度变化, 为三个得分图中最大值所在的尺度。
10.一种基于可学习稀疏转换注意力机制的目标跟踪系统,其特征在于,所述系统包括:
第一处理模块,用于对给定的第一帧目标框中的图像进行初始化以生成目标模板图像;
第二处理模块,在第二帧及后续帧中,以前一帧目标框中的图像的目标中心作为中心点,通过多尺度策略以获取得到多个搜索区域图像,并将多个所述搜索区域图像调整为相同尺寸大小;
第一学习模块,用于将所述目标模板图像与所述搜索区域图像输入到共享权值的卷积神经网络模型中,通过卷积神经网络分别提取得到目标模板深度特征以及搜索区域深度特征;
第二学习模块,用于基于可学习稀疏模型对所述目标模板深度特征以及所述搜索区域深度特征进行空间转换以及通道转换,以减少空间特征冗余以及通道间冗余;
滑窗处理模块,用于将经过可学习稀疏模型处理后的所述目标模板深度特征作为卷积核,对搜索区域图像进行滑窗操作,以得到多个得分图;
定位跟踪模块,用于根据多个得分图中得分值最大的位置,推测出前一帧目标框中的图像的目标中心在当前帧的相对位移,并通过多尺度策略获得目标跟踪图像的尺度变化,以实现目标的跟踪。