1.一种用于车辆重识别的多轴交互多维度注意力网络,其特征在于:将ResNet‑50网络的res_conv4_2块之前的残差层作为多轴交互多维度注意力网络的骨干,并将res_conv4_2及其后面的块划分为三个独立的分支:BG,BW,BC;BG分支用于提取车辆图像的全局特征;在BW分支的res_conv5层之后添加窗口‑通道注意力模块,为不同的窗口提供不同的通道注意,以先验的方式学习部位级特征;在BC分支的res_conv5层之后添加通道组‑空间注意力模块,通过语义相关通道的聚集和部件空间位置的重校准来自适应地发现部位并学习部位特征;
所述窗口‑通道注意力模块通过跨位置交互和跨通道交互来建模每个窗口的通道注意力,并通过跨窗口交互来增大不同区域间通道注意力的差异;所述窗口‑通道注意力模块的结构为:输入特征图 ,在H 、W方向被均匀地分割为多个非重叠的窗口 ;其中H、W、C分别是特征图X的高度、宽度和通道数目,h、w分别是单个窗口的高度和宽度, 是窗口数目;在每个窗口内,通过计算自注意力让信息在空间轴上进行跨位置地交互并捕获窗口空间上下文;
所述通道组‑空间注意力模块将特征图的通道聚集为多个组,并为每个通道组配置空间注意力,来分别强调相应部位在空间维度上所处的位置;所述通道组‑空间注意力模块的结构为:对输入特征图 实施1×1卷积操作,沿通道方向将其划分为G组,得到,其中G表示分组数,是每组的通道数;在每个通道组内,通过计算自注意力使信息在通道轴上进行跨通道地交互并捕获通道上下文。
2.根据权利要求1所述的用于车辆重识别的多轴交互多维度注意力网络,其特征在于:对于窗口‑通道注意力模块,由于自注意力需要1维序列作为输入,首先将的空间维度扁平化为一维得到一个张量 ;每个窗口的自注意力操作表示如下:
,
N×C
其中, 编码了第i个窗口的空间上下文,Qi、Ki、Vi∈R 分别是对Nw个N×C的张量实施线性映射得到的查询矩阵、键矩阵和值矩阵, 是缩放因子;
然后,将Fi变形为张量 ,并通过全局平均池化操作来得到通道方面的空间上下文 ;
通过局部跨通道交互学习窗口的通道注意力,所述窗口的第m个通道的权重是通过仅m考虑S 与它的相邻的k个邻居之间的交互计算的,具体的表达形式如下:,
m
其中, 表示S 的k个相邻元素的集合;多个窗口的局部跨通道交互操作采用一维可分离卷积来同时实现,,
其中,SC1Dk指的是参数共享的1D可分离卷积。
3.根据权利要求2所述的用于车辆重识别的多轴交互多维度注意力网络,其特征在于:在各个窗口的通道注意力之间引入跨窗口连接,来得到每个窗口最终的通道注意力图,公式如下:,
其中,Softmax沿着窗口方向计算;然后,将每个通道注意力图与其所对应的窗口特征图相乘:Xi"=Ai Xi,
其中, 表示逐元素乘法;最后,将Nw个子特征图沿窗口方向合并后,再与原始特征图X相加,得到最终的输出特征图 ,。
4.根据权利要求1所述的用于车辆重识别的多轴交互多维度注意力网络,其特征在于:对于通道组‑空间注意力模块,将 的空间维度扁平化为一维,记为,M=H×W;每个通道组的自注意力计算表示如下:,
其中, 编码了第j个通道组的通道上下文,Qj、Kj、 分别是对实施线性映射并变形得到的查询矩阵、键矩阵和值矩阵, 是缩放因子;然后,将变形得到 ;
对于第j个通道组,在通道轴上分别使用平均池化和最大池化操作,得到两个空间方面的通道上下文: 和 ;将这两个空间方面的通道上下文连接为Fj"∈H×W×2
R ,并对其实施局部的跨位置交互;G个组的跨位置交互通过一个分组卷积来同时实现:,
其中,G个组的通道上下文被依次拼接成一个形状为H×W×2G的张量;然后对所述张量实施卷积核大小为k×k的分组卷积操作 ,得到G个大小为H×W×1的张量;Mj是由通道上下文Fj"在空间轴上局部地跨位置地交互得到的第j个通道组的空间注意力张量,局部跨位置交互范围为k×k。
5.根据权利要求4所述的用于车辆重识别的多轴交互多维度注意力网络,其特征在于:在各个组的空间注意力之间引入跨组连接,来得到每个组最终的空间注意力图,,
将每个空间注意力图与其所对应的通道组相乘,Xj"=Aj Xj,
其中, 表示逐元素乘法;将G个通道组拼接起来,再与原始特征图 相加,得到最终的通道组‑空间注意力模块输出特征图 ,。
6.根据权利要求1所述的用于车辆重识别的多轴交互多维度注意力网络,其特征在于:所述BG分支在res_conv5_1块中采用stride=2的下采样,并对最终输出的特征图执行全局平均池化操作,然后使用带有批归一化和ReLu的1×1卷积将平均池化得到的特征G1的维度由2048维降至256维;所述BW分支和BC分支中的res_conv5_1块均不采用下采样操作,对所述窗口‑通道注意力模块和通道组‑空间注意力模块的输出特征图进行全局平均池化和降维操作,以生成这两个分支的特征表征。
7.根据权利要求1‑6任一项所述的用于车辆重识别的多轴交互多维度注意力网络,其特征在于:采用交叉熵损失函数和三元组损失函数。
8.根据权利要求7所述的用于车辆重识别的多轴交互多维度注意力网络,其特征在于:所述交叉熵损失函数为:
,
其中,N表示数据集中车辆身份的数量,y是输入到网络的图像的真实身份标签,pj是输入图像属于第j辆车的预测概率。
9.根据权利要求8所述的用于车辆重识别的多轴交互多维度注意力网络,其特征在于:所述三元组损失函数为:
,
其中,a为特定身份的锚点, 、 、分别是从锚点、正样本和负样本提取的特征;m是边缘超参数;P和K是随机抽取的P个身份和K个实例。
10.根据权利要求9所述的用于车辆重识别的多轴交互多维度注意力网络,其特征在于:总损失函数为:,
其中,α和β为比例系数,M∈(1,2,3,4)为使用损失函数数目。