1.一种基于空间注意力地图的目标检测方法,其特征在于,包括步骤:S1.将测试图像输入预先训练好的Faster RCNN网络,并自下向上逐层进行特征提取、自上向下逐层进行高层语义信息传播,得到目标的空间特征信息F和与空间特征信息相对应的特征梯度信息G;
S2.对所述得到的目标的空间特征信息F和特征梯度信息G进行加权计算,得到目标高层语义信息引导的注意力地图M;
S3.对所述目标的空间特征信息F进行数据预处理,通过Transformer注意力模块得到目标的感兴趣区域图P;
S4.叠加所述得到的目标感兴趣区域图P和目标高层语义信息引导的注意力地图M,得到目标注意力地图A;并将得到的目标注意力地图A与通道特征权重进行计算,得到多通道S的空间注意力地图A;
S
S5.将所述得到的多通道的空间注意力地图A与目标空间特征信息F进行结合,得到新的目标空间特征信息Fnew;
S6.将得到的新的目标空间特征信息Fnew联合RPN网络的目标候选框,提取出进行目标分类和边界框回归的特征。
2.根据权利要求1所述的一种基于空间注意力地图的目标检测方法,其特征在于,所述步骤S6之后还包括:S7.在Faster RCNN网络训练过程中,Transformer注意力模块、RPN网络、RCNN网络均产生损失,并将Transformer注意力模块的损失与RPN网络、RCNN网络的损失结合,得到新的损失函数,然后执行反向传播进行网络参数以及权重的更新。
3.根据权利要求1所述的一种基于空间注意力地图的目标检测方法,其特征在于,所述步骤S1中得到目标的空间特征信息和F与空间特征信息相对应的特征梯度信息G是通过卷积神经网络的最后一层卷积层获取到的。
4.根据权利要求1所述的一种基于空间注意力地图的目标检测方法,其特征在于,所述步骤S1中特征梯度信息G表示为:其中, 表示空间特征信息F中第k个特征图(i,j)位置的元素值;Y表示高层语义信息。
5.根据权利要求4所述的一种基于空间注意力地图的目标检测方法,其特征在于,其特征在于,所述步骤S2中还包括对图像特征梯度信息G采进行全局平均化处理,得到每个通道特征权重wk:其中,Zk表示第k个通道中像素点的个数;wk的尺寸大小为C×1,表示第k个特征图对预测类别的重要性;
所述步骤S2中高层语义信息引导的注意力地图M为:k
其中,ReLU(·)表示非线性修正单元;F表示第k个通道的特征图信息。
6.根据权利要求5所述的一种基于空间注意力地图的目标检测方法,其特征在于,其特征在于,所述步骤S3中的进行数据预处理包括多通道值的叠加、尺寸的统一、数值的归一化操作;
所述步骤S3中进行数据预处理之后,通过nn.Embeding()方法将空间特征信息F映射到指定512维度,并对每一维度特征图中分别位于奇数和偶数位置的序列信息采用正弦和余弦函数进行位置编码,编码计算方法如下:
2l/d_model
PE(pos,2l)=sin(pos/10000 )
2l/d_model
PE(pos,2l+1)=cos(pos/10000 )其中,pos表示一个连续的整数序列;l表示序列信息所在位置;d_model=512表示Transformer网络模型的尺寸。
7.根据权利要求6所述的一种基于空间注意力地图的目标检测方法,其特征在于,其特征在于,所述步骤S4中还包括将目标感兴趣区域图P通过缩放得到与空间特征信息F大小相同的区域图;
S
所述步骤S4中得到多通道的空间注意力地图A为:其中, aij表示目标注意力地图A中第(i,j)位置的像素值, 表示通道特征权重,计算方法分别为:
s
其中,Ts=0表示多通道的空间注意力地图A的阈值。
8.根据权利要求7所述的一种基于空间注意力地图的目标检测方法,其特征在于,所述步骤S4中还包括对通道特征权重wk重新处理得到新的通道特征权重 以得到权重占比的通道特征信息:其中, 表示第k个通道的新权重值;Tc=0表示通道特征信息的阈值。
9.根据权利要求8所述的一种基于空间注意力地图的目标检测方法,其特征在于,所述S步骤S5中得到的多通道的空间注意力地图A与目标空间特征信息F进行结合的方式为:s
Fnew=F*A
其中,*表示逐像素相乘,Fnew表示新的目标空间特征信息。
10.根据权利要求2所述的一种基于空间注意力地图的目标检测方法,其特征在于,所述步骤S7中将Transformer注意力模块的损失与RPN网络、RCNN网络的损失结合,得到新的损失函数具体为:Lrpn=Lrpn_cross+Lrpn_regLrcnn=Lrcnn_cross+Lrcnn_regLoss=Lrcnn+Lrpn+Ltransformer其中,Lrpn_cross和Lrpn_reg表示RPN网络的cross_entropy和L1损失;Lrcnn_cross和Lrcnn_reg表示RCNN网络的cross_entropy和L1损失;Ltransformer表示transformer注意力网络的KL损失;
其中cross_entropy和L1损失分别用于计算网络的分类损失和边界框的回归损失。