1.基于transformer和CNN的人群计数方法,其特征在于:包括如下步骤:
(1)获取训练样本,得到多场景的人群RGB图像,并对人群RGB图像进行预处理增强;
(2)将增强后人群RGB图像输入模型的主干网络进行计算,主干网络包括由四个阶段组成的金字塔transformer,增强后人群RGB图像依次经过主干网络的四个阶段,得到不同分辨率的全局特征图;其中,每一个阶段都包括一个重叠图像块嵌入层和一个编码器;
(3)将不同分辨率全局特征图上采样之后进行通道叠加,得到聚合特征图;
(4)将聚合特征图输入多分支卷积神经网络,得到多尺度特征图,然后在通道维度相加,得到多尺度聚合特征图;
(5)将多尺度聚合特征图输入密度图回归层进行平滑降维并输出密度图;
(6)使用最优传输损失进行训练,最终进行预测。
2.根据权利要求1所述的基于transformer和CNN的人群计数方法,其特征在于:所述步骤(1)进行预处理增强前先获取人群RGB图像的标注数据,在每个人头位置进行像素点标注,像素点的数量代表了该场景中的总人数。
3.根据权利要求1所述的基于transformer和CNN的人群计数方法,其特征在于:所述步骤(1)的预处理增强具体包括随机水平或垂直翻转,并进行标准化,训练时将训练图像裁切为256×256图像块进行训练。
4.根据权利要求1所述的基于transformer和CNN的人群计数方法,其特征在于:所述步骤(2)具体包括:在重叠图像块嵌入层中,输入图像在一个卷积层中被分为相互重叠的图像块,然后进行卷积操作输出二维特征图,然后输出的二维特征图展开为一维向量并进行正则化,作为编码器输入;第一阶段中重叠图像块嵌入层的卷积层卷积核大小为7×7,步长为4;其余三阶段重叠图像块嵌入层中卷积层的卷积核大小为3×3,步长为2;四层卷积层输出维度依次为:64,128,320,512;通过控制卷积层步长输出金字塔型的不同分辨率特征图;
在编码器中,输入向量经过多个block进行自注意力计算,每个block包括一个自注意力计算层和一个前向传播层,每层都采用跳跃连接的方式进行连接;每个阶段中block个数依次为:3,8,27,3;每个阶段中多头自注意力层的头数分别为1,2,5,8;经过编码器计算之后的向量被重塑二维特征图,并作为下一阶段的输入;最终四个阶段输出四组分辨率不同的全局特征图,分辨率依次为输入的增强后人群RGB图像分辨率的1/4,1/8,1/16,1/32。
5.根据权利要求1所述的基于transformer和CNN的人群计数方法,其特征在于:所述步骤(3)具体包括:首先将步骤(2)中提取的四组不同分辨率全局特征图上采样到相同的分辨率,同时保持通道数不变,通过双线性插值的方法,将最后三个阶段的特征图上采样至第一阶段特征图的分辨率,即增强后人群RGB图像的1/4大小;
然后将四个阶段的特征图进行聚合,聚合方法为将四个阶段的所有特征图在通道维度进行叠加,总的通道数为四个阶段特征图通道数的总和,即64+128+320+512=1024,最后获得通道数为1024的聚合特征图。
6.根据权利要求5所述的基于transformer和CNN的人群计数方法,其特征在于:所述步骤(4)具体包括:多分支卷积神经网络模块包括三个分支,每个分支包括一个卷积层,第一个分支卷积核大小为3×3,第二个分支卷积核大小为5×5,第三个分支卷积核大小为7×7;每一个分支的输出通道数都为256,并且每一个分支的卷积层后面都有一个批正则化层和一个ReLU激活函数层;
经过三个分支计算之后,得到三组分辨率和通道数都相同的多尺度特征图;然后将多尺度特征图在对应通道上进行逐像素相加,具体为每个对应通道上三张特征图对应位置像素进行相加,最后得到的多尺度聚合特征图通道数为256。
7.根据权利要求1所述的基于transformer和CNN的人群计数方法,其特征在于:所述步骤(5)具体包括:密度图回归层包括两层卷积层,第一层卷积层卷积核大小为3×3,步长为1,输出通道数为64,第二层卷积层的卷积核大小为1×1,步长为1,输出通道数为1,每层卷积层之后有一层批正则化层和ReLU激活函数,最终输出人群密度估计图和人群计数结果。
8.根据权利要求1所述的基于transformer和CNN的人群计数方法,其特征在于:所述步骤(6)具体包括:使用最优传输损失进行训练,对人群密度估计图和总人数进行回归,优化模型参数,然后将损失最小的模型参数保存;预测时则加载保存的最小损失模型参数,直接获取人群密度估计图和人群计数结果作为预测结果。