1.一种基于自注意力机制的多尺度目标检测方法,其特征在于,包括以下步骤:步骤1,获取训练样本集,选取基础网络,构造多尺度特征金字塔,作为特征提取网络,其用于提取待检测图像的卷积特征图;
步骤2,基于自注意力机制,构建自注意力特征选择模块;并将自注意力特征选择模块设置在多尺度特征金字塔的相邻卷积层之间,结合设置于所述多尺度特征金字塔输出端的检测模块,形成多尺度目标检测网络;自注意力特征选择模块用于将多尺度卷积特征图进行融合;
其中,所述自注意力特征选择模块为并列的通道注意力模块和空间注意力模块、依次设置的通道注意力模块和空间注意力模块或依次设置的空间注意力模块和通道注意力模块中的一种;
步骤3,将训练样本集中的样本作为多尺度目标检测网络的输入,采用动量梯度下降法对多尺度目标检测网络进行优化,得到优化后的多尺度目标检测网络;
步骤4,将待检测图像输入优化后的多尺度目标检测网络进行目标检测,得到目标的类别及其对应的置信度。
2.根据权利要求1所述的基于自注意力机制的多尺度目标检测方法,其特征在于,步骤
1中,所述训练样本集包含原始训练样本和将原始训练样本进行翻转、剪切、压缩或拉伸操作后得到的变换样本,还包含将原始训练样本和所述变换样本进行一定比例放大后得到的放大样本。
3.根据权利要求2所述的基于自注意力机制的多尺度目标检测方法,其特征在于,步骤
1中,所述构造多尺度特征金字塔具体为:
首先,获取覆盖训练样本集中目标样本的所有分辨率;
其次,根据所述目标样本的所有分辨率确定多尺度特征金字塔的层数及每层对应的分辨率;
最后,将基础网络的最后两层卷积层作为多尺度特征金字塔的最底端两层,并在其后依次添加对应分辨率的额外的卷积层,得到特征提取网络,即为多尺度特征金字塔;
其中,每个分辨率对应多尺度特征金字塔中的一层,每层对应的特征图的大小为待检测图像的大小除以该层对应的分辨率,并对结果进行向上取整操作。
4.根据权利要求3所述的基于自注意力机制的多尺度目标检测方法,其特征在于,所述获取覆盖训练样本集中目标样本的所有分辨率为:对训练样本集中的目标样本进行统计,根据统计结果将目标样本按照大小进行分类,得到n个目标尺度类别;选取每个目标尺度类别分辨率的中间值作为该目标尺度的大小。
5.根据权利要求1所述的基于自注意力机制的多尺度目标检测方法,其特征在于,步骤
3中,采用动量梯度下降法对多尺度目标检测网络进行优化,按照以下步骤实施:步骤3.1,初始化多尺度目标检测网络;
步骤3.2,将训练样本集中的训练样本图像作为多尺度目标检测网络的输入,每次输入一个训练样本图像,训练样本图像经过特征提取金字塔进行卷积特征图的提取和融合,并将特征融合后的图像输入检测模块进行检测,输出检测结果;
步骤3.3,将检测结果与当前训练样本图像的真实目标标注结果进行比较,采用反向传播算法调整多尺度目标检测网络的参数,并基于调整后的目标检测网络迭代处理后续的训练样本图像。
6.根据权利要求5所述的基于自注意力机制的多尺度目标检测方法,其特征在于,所述初始化多尺度目标检测网络为:采用基础网络的预训练参数初始化多尺度目标检测网络中保持不变的基础网络的各层,其余层采用随机初始化。
7.根据权利要求5所述的基于自注意力机制的多尺度目标检测方法,其特征在于,所述训练样本图像经过特征提取金字塔进行卷积特征图的提取和融合,其具体为:训练样本图像经过每个卷积层进行对应尺度的特征提取,得到卷积特征图;卷积特征图经过特征提取金字塔进行自下而上和自上而下的特征融合,输出融合后的特征图像。
8.根据权利要求7所述的基于自注意力机制的多尺度目标检测方法,其特征在于,所述自下而上和自上而下的特征融合,其具体步骤为:步骤3.2a,从特征提取金字塔的最底层开始至顶层,依次进行自下而上的特征融合,即采用步长为4的最大池化将第i(i=1,2,3,...,n‑2)层特征图的分辨率降低为第i+2层特征图的分辨率,再通过自注意力特征选择模块进行特征的选择和过滤,然后将处理后的第i层特征图加到第i+2层特征图上;
步骤3.2b,从特征提取金字塔的顶层开始,对经过自下而上特征融合后的特征图进行自上而下的特征融合,即使用步长为2的双线性插值或反卷积将第i+1层特征图的分辨率升高到第i层特征图的分辨率,再通过自注意力特征选择模块进行特征的选择和过滤,然后将过滤后的第i+1层特征图加到经过3×3卷积处理后的第i层特征图上;
其中,所述特征提取金字塔的各卷积层自下而上依次编号。
9.根据权利要求8所述的基于自注意力机制的多尺度目标检测方法,其特征在于,所述通过自注意力特征选择模块进行特征的选择和过滤,其具体为:首先,设定输入特征图的大小为w×h×c,h、w和c分别表示特征图的长、宽和通道数;
然后,对于通道注意力模块,其处理过程为:先通过全局平均池化将特征图的尺寸挤压为1×1×c,再通过全连接层fc1将通道数降为c/16,然后通过全连接层fc2将通道数升到原通道数c,以拟合通道之间复杂的非线性关系,之后利用Sigmoid函数将各个通道的权重归一化至区间[0,1],最后将权重通过广播乘法加权到输入特征图上,完成特征在通道位置上的重标定;
对于空间注意力模块,其处理过程为:通过1×1的卷积将输入特征图的通道数挤压为
1,得到大小为w×h的分数图,然后将每个分数图对应的权重通过广播乘法加权到输入特征图上,完成特征在空间位置上的重标定。