1.一种用于车辆重识别的局部细化和全局强化网络,其特征在于:将车辆图像作为输入,采用ResNet‑50的res_conv4_2之前的残差块作为特征提取的骨干,res_conv4_1残差块的后续部分被划分为三个分支:GL Branch、GS Branch和LR Branch,并移除三个分支的res_conv5_1残差块的下采样操作;
未使用注意力模块的GL Branch用于学习车辆的整体的概括性信息;
在GS Branch的res_conv5层之后添加一个全局强化模块来学习车辆的强化的全局表示;
在LR Branch的res_conv5层之后应用一个局部细化模块来学习车辆的细化的局部表示;
其中,所述局部细化模块的结构为:设特征图 为该模块的输入,其中,C、H、W分别表示特征图的通道数量、高度和宽度;使用一个输出通道数为3C的1*1卷积得到x的查询张量 、键张量和值张量 : ;
q
设x中第i个像素的查询为 ,表示x 在位置i处的特征向量;第i个k
像素的 邻域内的键集合记为 ,表示x 中与位置i距离最近的2
k 个位置的特征向量;
将qi与ki的转置进行矩阵乘积计算并执行softmax归一化得到注意力权重向量,其公式如下:,
其中, 表示矩阵乘法计算;注意力权重向量的第j个元素表示了第i个像素与它的v邻域内的第j个像素的成对亲和性;然后,从x 中抽取位置i的 邻域内的特征向量,记作2
,代表第i个像素的k 个最近邻的值;最后,根据注意力得分Ai聚集vi来捕获第i个像素的局部上下文并对其表征进行重建,得到 ,其计算过程表示为:
,得到车辆图像的局部细化模块输出特征图;
所述全局强化模块的结构为:
设特征图 为全局强化模块的输入,其中,C、H、W分别表示特征图的通道数、高度和宽度;通过一个变形操作和一个全连接层得到x的查询矩阵 ,;
该矩阵的第i行 表示第i个像素的查询向量;沿空间维度将x均匀地划分为 个窗口,其中,h和w分别为一个窗口的高度和宽度;对每一个窗口的特征图实施一个变形操作和一个全连接层得到M个窗口的键矩阵 :,
其中,第j个窗口的键矩阵为 ,N=h*w为窗口的大小,所有窗口的线性变换操作共享相同的权重;Kj中的每一列为第j个窗口中的一个键向量;
T
将Qi与K j进行矩阵相乘得到目标像素i与第j个窗口内各像素之间的成对亲和性向量,即;
其中, 表示矩阵乘法;第j个窗口关于所有目标像素的成对亲和性矩阵 ,通T过Q与Kj进行矩阵相乘得到:
,
其中,Rj中的每一行为一个目标像素与第j个窗口内各像素之间的成对亲和性;然后,在Rj的列方向上执行softmax归一化操作以获得窗口的像素在每个目标像素处的注意力分数,其公式化为:;
第j个窗口的注意力矩阵 的每一行表示一目标像素与第j个窗口内所有像素的依赖关系;
通过计算M个窗口在每个目标像素处的注意力分数,得到M个窗口的注意力矩阵;这M个矩阵同时被计算为:,
其中,softmax操作在最后一个维度上执行;将M个注意力矩阵沿列轴拼接成矩阵并对其执行L1_norm归一化,得到远距离依赖强化的注意力矩阵 ,其计算公式为:
;
对x的每一个窗口的特征图实施一个变形操作和一个全连接层来得到M个窗口的值矩阵 ,,
其中,所有窗口的线性变换操作的参数共享;在将M个窗口的值矩阵拼接在一起形成值''矩阵 后,用矩阵A 对矩阵V进行加权求和以重建特征的表示:;
最后,将矩阵 变形为张量 ,并将其与输入特征图相加来计算全局'
强化模块的输出特征图F ,其计算过程如下:;
其中,GELU表示高斯误差线单位,BN表示批量归一化操作;得到车辆图像的全局强化模块输出特征图。
2.根据权利要求1所述的用于车辆重识别的局部细化和全局强化网络,其特征在于:所2
述局部细化模块中,每个像素与它最近的k 个像素的成对亲和性的计算及所有像素的重建q通过unfold操作和张量的矩阵乘法来实现;首先,将x 变形得到查询张量 ,此k张量有HW个查询,每个查询的大小为1×C;同时在x 上使用一个内核大小为k*k且步长为12
的unfold操作来抽取每个像素周围的k 个键,并变形得到键张量 ,其中,每个
2 2
像素的最近邻所对应的键用一个k ×C的矩阵存储;表示每个像素与它的最近的k 个像素的T成对亲和性的注意力权重张量 是通过Q和K 的矩阵相乘及softmax归一化操作得到的,即:,
2
其中,某一个像素与其 邻域内的像素的成对亲和性用一个大小为1×k 的向量表示;
v 2
其次,在x 上使用一个内核大小为k*k且步长为1的unfold操作来提取每个像素的k 个最近2
邻所对应的值,并变形得到值张量 ,其中,每个像素的最近邻的值用一个k ×2
C的矩阵存储;最后,使用每一个像素的权重向量对它周围的k 个像素所对应的值进行加权求和,得到所有重建的像素 ,其计算过程表示如下:;
'
将张量x 重塑为 并将其与原始特征图相加,对相加后的特征图执行BN和'GELU操作得到最终输出特征图F ,其公式化为:。
3.根据权利要求1或2所述的用于车辆重识别的局部细化和全局强化网络,其特征在于:所述三个分支均采用全局平均池化操作和降维模块来生成输入的车辆图像的特征表示。
4.根据权利要求3所述的用于车辆重识别的局部细化和全局强化网络,其特征在于:对于分支输出的任何一个特征图,使用全局平均池化操作得到一个2048维的特征向量,然后,利用一个由1*1卷积、BN和relu激活函数组成的降维模块进一步将其维度压缩到256维。
5.根据权利要求4所述的用于车辆重识别的局部细化和全局强化网络,其特征在于:所述256维的特征向量被用于三元组损失的计算,并经过一个输出神经元数量为训练集中的车辆数目的全连接层的转换用于交叉熵损失的计算。
6.根据权利要求5所述的用于车辆重识别的局部细化和全局强化网络,其特征在于:所述交叉熵损失计算公式如下:,
其中,N表示的是训练集的车辆数量,y代表输入到网络的图像的真实身份标签,pi是输入图像属于第i辆车的概率。
7.根据权利要求5所述的用于车辆重识别的局部细化和全局强化网络,其特征在于:所述三元组损失计算公式如下:,
(i) (i) (j)
其中,α是控制 和 距离差异的边距超参数,fa 、fp 、fn 分别是从锚点、正样本、负样本中提取的特征。
8.根据权利要求5所述的用于车辆重识别的局部细化和全局强化网络,其特征在于:将三个分支的交叉熵损失和三元组损失相加得到最终的损失,总损失计算公式如下:,
其中,N表示分支数,Lid表示交叉熵损失,Ltriplet表示三元组损失。