1.一种基于残差网络的多尺度特征融合的人群密度估计方法,其特征在于,包括如下步骤:
步骤1:图像预处理:将所有的训练图像处理为同一尺寸,对训练图像中人头的位置进行标注,生成对应的人头坐标表格并保存;
步骤2:将步骤1生成的人头坐标表格结合对应的缩放矩阵,通过高斯核卷积,生成对应的密度图;
步骤3:将步骤2生成的各训练图片的密度图通过筛选器二值化,生成像素值为0或1的二值图,作为注意力区域图;
步骤4:将训练图像送入模型主干网络;
步骤5:将模型主干网络输出的特征分别送入密度预测网络和注意力预测网络中;
步骤6:将密度预测网络和注意力预测网络中分别输出的特征图像分别送入链式残差池化进行特征增强;
步骤7:将经过增强的输出特征图依次输出到上采样过程中,使高级特征图的尺寸与低级的特征图的尺寸相匹配;
步骤8:将步骤7处理完毕的特征图全部相加到一起后,获得注意力特征图和人群密度特征图;
步骤9:将注意力特征图输入一个一层卷积的预测层,获得注意力区域图;
步骤10:将注意力区域图与人群密度特征图进行合并,消除人群密度特征图中的额外噪点,减少预测误差;
步骤11:消除噪点后的人群密度特征图通过一个一层卷积的预测层,展开为一张人群密度预测图。
2.根据权利要求1所述的一种基于残差网络的多尺度特征融合的人群密度估计方法,其特征在于,所述步骤2中所述生成对应的密度图的方法如下:;
其中, 为训练图像中预设目标的真值密度图,为被标记的目标在图像中的横坐标,为被标记的目标在图像中的纵坐标,π为圆周率,为高斯核大小,e为自然常数。
3.根据权利要求1所述的一种基于残差网络的多尺度特征融合的人群密度估计方法,其特征在于,所述步骤3中所述注意力区域图的生成方法如下:;
其中, 注意力区域图, 为训练图像中预设目标的真值密度图,为被标记的目标在图像中的横坐标,为被标记的目标在图像中的纵坐标,k为筛选器阈值,该阈值默认为0.001,可以根据具体情况进行修改。
4.根据权利要求1所述的一种基于残差网络的多尺度特征融合的人群密度估计方法,其特征在于,在所述步骤4的主干网络中,训练图像被送入三个连续的的下采样卷积层,在卷积层中,训练图片通过卷积核扫描生成输入到下一层网络的特征图,方法如下:;
其中 为输出特征图的值, 为该卷积层神经元的权重,为输入特征图的值,为神经元编号,为偏置参数。
5.根据权利要求4所述的一种基于残差网络的多尺度特征融合的人群密度估计方法,其特征在于,所述图像在经过卷积处理后,尺寸会发生变化,尺寸变化的方法如下:;
其中 为输出特征图的边长, 为输入特征图的边长, 为卷积核边长, 为步长,
为防止图像尺寸缩小,在图像周围添加一圈像素,使得卷积后的图像尺寸和卷积前的一样,添加像素的方法如下:
;
其中 为输出特征图的边长, 为输入特征图的边长, 为卷积核边长,p为像素填充量,stride为步长。
6.根据权利要求5所述的一种基于残差网络的多尺度特征融合的人群密度估计方法,其特征在于,卷积处理后的特征图经过最大池化,使用ReLU函数作为网络的激活函数,表达式如下:
;
其中 为激活函数输出值,为输入特征图的值。
7.根据权利要求1所述的一种基于残差网络的多尺度特征融合的人群密度估计方法,其特征在于,所述步骤6中的密度预测网络和注意力预测网络拥有相同的残差网络结构,残差网络结构都是由都是由多个残差模块组成的,每个残差模块都包含了三个卷积层和三个激活层,经过三层卷积层计算后的特征图与输入特征图通过残差层进行叠加。
8.根据权利要求7所述的一种基于残差网络的多尺度特征融合的人群密度估计方法,其特征在于,每个残差模块中输出的特征图会经过一个由3轮链式残差池化层组成的链式残差池化模块进行计算。
9.根据权利要求8所述的一种基于残差网络的多尺度特征融合的人群密度估计方法,其特征在于,所述步骤8中具体包括:经过CRPblock计算之后的特征图按从高级到低级的顺序,通过一个两层卷积层的融合层逐一相加,这一过程中,更高级的特征图使用上采样模块来扩大图像尺寸以适应低级的特征图的尺寸,上采样模块用于扩大图像尺寸,根据特征图周围的像素,对新增加的像素点进行插值,计算表达式如下:
;
是输出特征图的边长, 为输入特征图的边长, 为卷积核边长,为像素填充量,stride为步长, CRPblock为3轮链式残差池化层组成的;
将步骤7处理完毕的特征图全部相加到一起,获得注意力特征图和人群密度特征图。
10.根据权利要求1所述的一种基于残差网络的多尺度特征融合的人群密度估计方法,其特征在于,所述步骤10、11中注意力区域图和人群密度特征图融合到一起,构成最终人群密度特征图的方法如下:
;
其中 为被标记的目标在图像中的横坐标,为被标记的目标在图像中的纵坐标, 为最终人群密度特征图, 为注意力区域网络输出的注意力区域图,为密度预测网络输出的人群密度特征图。