1.一种人群密度估计方法,其特征在于,包括:
将灰度化处理后的待估计图像输入深度神经网络模型中进行预处理,得到低层特征图;
将所述低层特征图输入所述深度神经网络模型中的第一子网络,得到高层语义特征图;所述第一子网络包括多个卷积层和多个池化层;
将所述高层语义特征图输入所述深度神经网络模型中的全连接层,得到人群密集等级;所述全连接层的最后一层的不同神经元对应不同的人群密集等级;
根据所述人群密集等级确定所述深度神经网络模型中的第二子网络的对应子列;所述第二子网络包括多个具有不同卷积核尺寸的子列,所述子列的数量与所述全连接层最后一层的神经元数量相同;多个所述子列与多个人群密度等级一一对应;通过估计当前场景的人群密集等级灵活地调整网络结构,即选择人群密集等级对应的第二子网络的子列,以迎合当前场景的图像尺度,有效抑制人群密度估计任务中图像多尺度导致人群密度估计准确率下降的缺陷;
将所述低层特征图输入所述第二子网络的对应子列中,得到用于人群密度估计的主要特征图;
将所述高层语义特征图输入人群位置掩膜模块,得到人群位置信息掩膜;
将所述用于人群密度估计的主要特征图与所述人群位置信息掩膜加权,并与所述用于人群密度估计的主要特征图进行通道上的链接,得到添加人群位置信息的特征图;
将所述添加人群位置信息的特征图输入所述深度神经网络模型中的维度变换层,得到所述待估计图像对应的人群密度估计图和人数估计结果。
2.根据权利要求1所述的人群密度估计方法,其特征在于,所述将灰度化处理后的待估计图像输入深度神经网络模型中进行预处理,具体包括:将所述灰度化处理后的待估计图像输入所述深度神经网络模型中的第一卷积层,得到第一图像;
将所述第一图像输入所述深度神经网络模型中的第二卷积层,得到所述低层特征图;
所述第一卷积层与所述第二卷积层的尺寸均为11*11。
3.根据权利要求1所述的人群密度估计方法,其特征在于,所述将所述低层特征图输入所述深度神经网络模型中的第一子网络,得到高层语义特征图,具体包括:将所述低层特征图输入所述深度神经网络模型中的第一子网络,依次经过所述第一子网络中的三个卷积层、一个池化层、一个卷积层、一个池化层和三个卷积层,得到所述高层语义特征图;所述第一子网络中的所有卷积层的卷积尺寸均为3*3,每个卷积层生成的特征图的通道数由输入至输出方向依次为24、32、16、32、16、24和8;所述第一子网络中的所有池化层的步长均为2。
4.根据权利要求1所述的人群密度估计方法,其特征在于,将所述高层语义特征图输入所述深度神经网络模型中的全连接层,得到人群密集等级,具体包括:将所述高层语义特征图输入所述深度神经网络模型中的三个全连接层,得到人群密集等级;三个全连接层的神经元数量由输入至输出方向依次为512、256和5,对应5个不同的人群密集等级。
5.根据权利要求4所述的人群密度估计方法,其特征在于,所述第二子网络包括5个具有不同卷积核尺寸的子列,依次为第一子列、第二子列、第三子列、第四子列和第五子列;每个子列均依次包括一个卷积层、一个池化层、一个卷积层、一个池化层和三个卷积层。
6.根据权利要求5所述的人群密度估计方法,其特征在于,所述第一子列中的每个卷积层的卷积核尺寸由输入至输出方向依次为11*11、9*9、9*9、9*9和3*3,每个卷积层生成的特征图通道数由输入至输出方向依次为24、32、16、8和8;所述第一子列的两个池化层的步长均为2;
所述第二子列中的每个卷积层的卷积核尺寸由输入至输出方向依次为9*9、7*7、7*7、
7*7和3*3,所述第二子列的每个卷积层生成的特征图通道数由输入至输出方向依次为24、
32、16、8和8;所述第二子列的两个池化层的步长均为2;
所述第三子列中的每个卷积层的卷积核尺寸由输入至输出方向依次为7*7、5*5、5*5、
5*5和3*3,所述第三子列的每个卷积层生成的特征图通道数由输入至输出方向依次为20、
40、20、10和8;所述第三子列的两个池化层的步长均为2;
所述第四子列中的每个卷积层的卷积核尺寸由输入至输出方向依次为5*5、3*3、3*3、
3*3和3*3,所述第四子列的每个卷积层生成的特征图通道数由输入至输出方向依次为24、
48、24、12和8;所述第四子列的两个池化层的步长均为2;
所述第五子列中的每个卷积层的卷积核尺寸由输入至输出方向依次为3*3、3*3、3*3、
3*3和3*3,所述第五子列的每个卷积层生成的特征图通道数由输入至输出方向依次为32、
48、24、18和8;所述第五子列的两个池化层的步长均为2。
7.根据权利要求1所述的人群密度估计方法,其特征在于,所述将所述高层语义特征图输入人群位置掩膜模块,得到人群位置信息掩膜,具体包括:将所述高层语义特征图输入卷积核尺寸为1*1的卷积层进行卷积操作,生成的特征图通道数为8,得到第二特征图;
将所述第二特征图进行Sigmoid函数变换,得到人群位置信息掩膜。
8.根据权利要求1所述的人群密度估计方法,其特征在于,所述将所述用于人群密度估计的主要特征图与所述人群位置信息掩膜加权,并与所述用于人群密度估计的主要特征图进行通道上的链接,得到添加人群位置信息的特征图,具体包括:将所述人群位置信息掩膜与所述用于人群密度估计的主要特征图进行逐元素相乘,得到第三特征图;
将所述第三特征图与所述用于人群密度估计的主要特征图进行通道上的链接,得到添加人群位置信息的特征图。
9.根据权利要求1所述的人群密度估计方法,其特征在于,所述将所述添加人群位置信息的特征图输入所述深度神经网络模型中的维度变换层,得到所述待估计图像对应的人群密度估计图和人数估计结果,具体包括:将所述添加人群位置信息的特征图输入所述深度神经网络模型中的维度变换层,依次经过一个卷积层、两个转置卷积层和一个卷积层,得到人群密度估计图和人数估计结果;所述维度变换层的两个卷积层的卷积尺寸由输入至输出方向依次为3*3和1*1,生成的特征图通道数依次为8和1;所述维度变换层的两个转置卷积层的卷积尺寸均为4*4,生成的特征图通道数依次为16和8,步长均为2。
10.根据权利要求1所述的人群密度估计方法,其特征在于,所述得到所述待估计图像对应的人群密度估计图和人数估计结果,之后还包括:将全连接层的损失函数和维度变换层的损失函数的加权和确定为所述深度神经网络模型的整体损失函数;所述全连接的损失函数采用交叉熵函数,所述维度变换层的损失函数为人群密度估计图和真实人群密度图的欧氏距离函数;
根据所述深度神经网络模型的整体损失函数确定所述深度神经网络模型的误差;
将所述误差反向传播,调整所述深度神经网络模型的参数,对所述深度神经网络模型进行优化。