1.一种利用多尺度多任务卷积神经网络对静止图像进行人群计数的方法,其特征在于,包括以下步骤:
1):由高斯密度图和逆高斯密度图计算组合密度图;
2):构建多尺度卷积神经网络解决人群尺度差异问题;
3):采取不同的采样策略对输入人群图像进行训练及预测;
4):通过多任务学习提高结果的准确性。
2.根据权利要求1所述的一种利用多尺度多任务卷积神经网络对静止图像进行人群计数的方法,其特征在于,所述步骤1)具体包括:
1.1):计算高斯密度图
利用估计密度图进行人群计数,估计密度图由以行人头部位置为中心的高斯核累加得到,获得图像子块中行人头部的中心位置Ph后,生成的密度图为:其中Di(p)是高斯密度图,Pi是第i个图像子块,Z是图像子块的真实人数,σh表示归一化二维高斯核Nh的方差,生成的密度图中某一位置的值越高表示该位置人群密度越大;
1.2):计算逆高斯密度图
将高斯密度图反转,获取逆高斯密度图 其
中Di(p)[m,n]表示高斯密度图在[m,n]处的值,m、n分别表示高斯密度图的长和宽,Th是用于区分高斯密度图边缘与背景的给定阈值;逆高斯密度图由图像子块的真实人数Z归一化,即
1.3):计算组合密度图
由高斯密度图及对应的逆高斯密度图,通过 计算组合密度图。
3.根据权利要求1所述的一种利用多尺度多任务卷积神经网络对静止图像进行人群计数的方法,其特征在于,所述步骤2)具体为:
2.1):构建三个具有不同尺度信息的卷积神经网络CNN通道,包括原始通道、上采样通道及下采样通道,每个通道由四个不同大小局部感受野的卷积层组成;对具有较大感受野的CNN通道,使用较少数量的滤波器,以减小网络规模;
2.2):每个CNN通道前两层卷积之后连接步长为2的最大池化层,故不同通道第3层卷积的输入是原图大小的1/4;
2.3):采用去卷积操作,保证第4个卷积层输出的特征大小相同的同时弥补由于之前最大池化操作导致丢失的细节,去卷积运算次数取决于每个CNN通道第4个卷积层输出特征的大小。
4.根据权利要求1所述的一种利用多尺度多任务卷积神经网络对静止图像进行人群计数的方法,其特征在于,所述步骤3)具体包括:
3.1):训练阶段:
将人群图像等分成若干图像子块,采用不重叠采样策略,利用图像子块和对应的真实标记,以多任务的方式训练网络;真实标记包括组合密度图、人群密度等级以及背景/前景分类;
3.2):测试阶段:
以相同步幅对输入图像重叠采样,按照多任务学习的方式估计每个图像子块的组合密度图、人群密度级别和背景/前景分类;将所有图像子块的组合密度图重构获得整张图像的密度图,对于重叠部分,将该处密度值除以重叠次数进行归一化;
3.3):训练、测试阶段均通过对整张人群图像的组合密度图进行积分,计算全局人群数量。
5.根据权利要求3所述的一种利用多尺度多任务卷积神经网络对静止图像进行人群计数的方法,其特征在于,所述步骤4)具体包括:
4.1):计算组合密度图与真实值之间的损失Ldensity将三个CNN通道第4个卷积层输出的特征通过Merge层合并,然后输入到第5层卷积,最后将第5层卷积的输出映射到组合密度图,计算组合密度图与真实值之间的损失其中N是训练样本数目,Θ是网络参数,Pi是第i小块,Fd(Pi,Θ)是Pi的估计密度图, 是Fd(Pi,Θ)的真实值;
4.2):计算人群密度等级与真实值之间的损失Llevel通过一组级联卷积滤波器对第5层卷积的输出进行处理,其次使用高度为3的空间金字塔池SPP保证任意大小图像均可输入训练;采用4个全连接层,前3个全连接层后紧接着PReLU激活层,第4个全连接层之后连接sigmoid激活层,表示输入图像子块的人群密度等级;估计人群密度等级与其真实值之间的损失Llevel:其中M是密度级别个数,Fc(Pi,Θ)是估计的Pi密度级, 是真实值;
4.3):计算前景/背景分类与真实值之间的损失Lmask将合并的特征映射到背景/前景分类,计算背景/前景分类与真实值之间的损失Lmask:其中Fm(Pi,Θ)是Pi背景/前景分类估计, 是真实值;
由尺度和背景/前景分类的相关性,分尺度损失PLmask定义如下:其中N是训练样本数
目,αj表示第j尺度的权重,Θj是j尺度下的CNN通道的参数, 是Pi的背景/前景分类估计;
4.4):确定联合损失函数Ltotal
多尺度多任务卷积神经网络损失函数最终定义为:Ltotal=λ1Ldensity+λ2Llevel+λ3PLmask,其中λ1、λ2、λ3是不同损失函数的权重。