1.一种复杂场景下结合跨模态信息的人群计数方法,其特征在于,所述方法包括:获取待计数复杂场景下人群的RGB图像和深度图像;
将所述RGB图像和所述深度图像输入优化后的深度神经网络模型中,得到估计的人群密度图;所述深度神经网络模型包括依次连接的低层特征提取层、第一跨模态循环注意力融合层、中层特征提取层、第二跨模态循环注意力融合层、高层特征提取层、第三跨模态循环注意力融合层和人群密度图估计层;所述优化后的深度神经网络模型采用不同复杂场景下人群的RGB图像和深度图像以及与所述RGB图像和所述深度图像对应的真实人群密度图对所述深度神经网络模型进行训练和优化得到;
将所述估计的人群密度图进行逐像素相加,得到人群中人数的估计值;
将所述RGB图像和所述深度图像输入优化后的深度神经网络模型中,得到估计的人群密度图,具体包括:
利用所述低层特征提取层对所述RGB图像和所述深度图像进行低层特征提取,得到RGB低层特征图和深度低层特征图;
利用所述第一跨模态循环注意力融合层和所述深度低层特征图对所述RGB低层特征图进行修正,得到修正后的RGB低层特征图;并利用所述第一跨模态循环注意力融合层和所述修正后的RGB低层特征图对所述深度低层特征图进行修正,得到修正后的深度低层特征图;
利用所述中层特征提取层对所述修正后的RGB低层特征图和所述修正后的深度低层特征图进行中层特征提取,得到RGB中层特征图和深度中层特征图;
利用所述第二跨模态循环注意力融合层和所述深度中层特征图对所述RGB中层特征图进行修正,得到修正后的RGB中层特征图;并利用所述第二跨模态循环注意力融合层和所述修正后的RGB中层特征图对所述深度中层特征图进行修正,得到修正后的深度中层特征图;
利用所述高层特征提取层对所述修正后的RGB中层特征图和所述修正后的深度中层特征图进行高层特征提取,得到RGB高层特征图和深度高层特征图;
利用所述第三跨模态循环注意力融合层和所述深度高层特征图对所述RGB高层特征图进行修正,得到修正后的RGB高层特征图;并利用所述第三跨模态循环注意力融合层和所述修正后的RGB高层特征图对所述深度高层特征图进行修正,得到修正后的深度高层特征图;
利用人群密度图估计层对所述修正后的RGB高层特征图和所述修正后的深度高层特征图进行人群密度估计,得到估计的人群密度图。
2.根据权利要求1所述的复杂场景下结合跨模态信息的人群计数方法,其特征在于,所述优化后的深度神经网络模型采用不同复杂场景下人群的RGB图像和深度图像以及与所述RGB图像和所述深度图像对应的真实人群密度图对所述深度网络模型进行训练和优化得到,具体包括:
获取不同复杂场景下人群的RGB图像和深度图像以及与所述RGB图像和所述深度图像对应的真实人群密度图;
将所述RGB图像和所述深度图像输入所述深度神经网络模型中,利用所述RGB图像和所述深度图像对所述深度神经网络模型进行训练,得到估计的人群密度图;
将所述估计的人群密度图以及与所述估计的人群密度图对应的真实人群密度图送入多层次监督机制,计算所述深度神经网络模型的损失函数;
根据所述损失函数确定所述深度神经网络模型的误差,采用误差反向传播算法将所述误差进行反向传播,调整所述深度神经网络模型的参数,直至所述损失函数最小为止,得到所述优化后的深度神经网络模型。
3.根据权利要求2所述的复杂场景下结合跨模态信息的人群计数方法,其特征在于,所述多层次监督机制的计算公式为:
LFC=λ1Lcoarse+λ2Lfine式中,Lcoarse表示粗粒度金字塔区域级感知监督, 为金字塔监督区域分层的数量,T表示每层监督区域的大小,j为金字塔监督区域层级,N为图片的数量,h′×w′为原图j j
片的大小,h′为原图片的高,w′为原图片的宽,T×T为经自适应平均池化后的图片大小,与 为经自适应平均池化后的估计的人群密度图与真实人群密度图,i表示图片序号,Lfine表示细粒度像素级感知监督, 与 为原始估计的人群密度图和真实人群密度图,LFC表示最终的多层次监督机制损失,λ1与λ2分别为粗粒度金字塔区域级感知监督和细粒度像素级感知监督的参数。
4.根据权利要求1所述的复杂场景下结合跨模态信息的人群计数方法,其特征在于,所述深度神经网络模型还包括:
通道连接层,分别与所述第三跨模态循环注意力融合层和所述人群密度图估计层连接,用于将所述修正后的RGB高层特征图和所述修正后的深度高层特征图进行通道上的连接,得到融合特征图;并将所述融合特征图输入所述人群密度估计层中,利用所述人群密度图估计层对所述融合特征图进行人群密度估计,得到估计的人群密度图。
5.根据权利要求4所述的复杂场景下结合跨模态信息的人群计数方法,其特征在于,所述深度神经网络模型还包括:
综合特征提取层,分别与所述第三跨模态循环注意力融合层和所述通道连接层连接,用于对所述修正后的RGB高层特征图和所述修正后的深度高层特征图进行综合特征提取,得到最终RGB特征图和最终深度特征图;并将所述最终RGB特征图和所述最终深度特征图传递到所述通道连接层,利用所述通道连接层将所述最终RGB特征图和所述最终深度特征图进行通道上的连接,得到融合特征图。
6.一种复杂场景下结合跨模态信息的人群计数系统,其特征在于,所述系统包括:RGB图像和深度图像获取模块,用于获取待计数复杂场景下人群的RGB图像和深度图像;
训练和优化模块,用于采用不同复杂场景下人群的RGB图像和深度图像以及与所述RGB图像和所述深度图像对应的真实人群密度图对深度神经网络模型进行训练和优化,得到优化后的深度神经网络模型;
人群密度图估计模块,用于将所述RGB图像和所述深度图像输入所述优化后的深度神经网络模型中,得到估计的人群密度图;所述深度神经网络模型包括依次连接的低层特征提取层、第一跨模态循环注意力融合层、中层特征提取层、第二跨模态循环注意力融合层、高层特征提取层、第三跨模态循环注意力融合层和人群密度图估计层;
低层特征提取层用于对所述RGB图像和所述深度图像进行低层特征提取,得到RGB低层特征图和深度低层特征图;
第一跨模态循环注意力融合层用于利用所述深度低层特征图对所述RGB低层特征图进行修正,得到修正后的RGB低层特征图;并利用所述修正后的RGB低层特征图对所述深度低层特征图进行修正,得到修正后的深度低层特征图;
中层特征提取层用于对所述修正后的RGB低层特征图和所述修正后的深度低层特征图进行中层特征提取,得到RGB中层特征图和深度中层特征图;
第二跨模态循环注意力融合层用于利用所述深度中层特征图对所述RGB中层特征图进行修正,得到修正后的RGB中层特征图;并利用所述修正后的RGB中层特征图对所述深度中层特征图进行修正,得到修正后的深度中层特征图;
高层特征提取层用于对所述修正后的RGB中层特征图和所述修正后的深度中层特征图进行高层特征提取,得到RGB高层特征图和深度高层特征图;
第三跨模态循环注意力融合层用于利用所述深度高层特征图对所述RGB高层特征图进行修正,得到修正后的RGB高层特征图;并利用所述修正后的RGB高层特征图对所述深度高层特征图进行修正,得到修正后的深度高层特征图;
人群密度图估计层用于对所述修正后的RGB高层特征图和所述修正后的深度高层特征图进行人群密度估计,得到估计的人群密度图;
人群中人数值估计模块,用于将所述估计的人群密度图进行逐像素相加,得到人群中人数的估计值。
7.根据权利要求6所述的复杂场景下结合跨模态信息的人群计数系统,其特征在于,所述训练和优化模块具体包括:
RGB图像和深度图像获取单元,用于获取不同复杂场景下人群的RGB图像和深度图像;
真实密度图获取单元,用于获取与所述RGB图像和所述深度图像对应的真实人群密度图;
人群密度图估计单元,用于将所述RGB图像和所述深度图像输入深度神经网络模型中,利用所述RGB图像和所述深度图像对所述深度神经网络模型进行训练,得到估计的人群密度图;
模型损失函数计算单元,用于将所述估计的人群密度图以及与所述估计的人群密度图对应的真实人群密度图送入多层次监督机制,计算所述深度神经网络模型的损失函数;
模型优化单元,用于根据所述损失函数确定所述深度神经网络模型的误差,采用误差反向传播算法将所述误差进行反向传播,调整所述深度神经网络模型的参数,直至所述损失函数最小为止,得到优化后的深度神经网络模型。
8.根据权利要求7所述的复杂场景下结合跨模态信息的人群计数系统,其特征在于,所述多层次监督机制的计算公式为:
LFC=λ1Lcoarse+λ2Lfine式中,Lcoarse表示粗粒度金字塔区域级感知监督, 为金字塔监督区域分层的数量,T表示每层监督区域的大小,j为金字塔监督区域层级,N为图片的数量,h′×w′为原图j j
片的大小,h′为原图片的高,w′为原图片的宽,T×T为经自适应平均池化后的图片大小,与 为经自适应平均池化后的估计的人群密度图与真实人群密度图,i表示图片序号,Lfine表示细粒度像素级感知监督, 与 为原始估计的人群密度图和真实人群密度图,LFC表示最终的多层次监督机制损失,λ1与λ2分别为粗粒度金字塔区域级感知监督和细粒度像素级感知监督的参数。
9.根据权利要求6所述的复杂场景下结合跨模态信息的人群计数系统,其特征在于,所述深度神经网络模型还包括:
通道连接层,分别与所述第三跨模态循环注意力融合层和所述人群密度图估计层连接,用于将所述修正后的RGB高层特征图和所述修正后的深度高层特征图进行通道上的连接,得到融合特征图;并将所述融合特征图输入所述人群密度估计层中,利用所述人群密度图估计层对所述融合特征图进行人群密度估计,得到估计的人群密度图。
10.根据权利要求9所述的复杂场景下结合跨模态信息的人群计数系统,其特征在于,所述深度神经网络模型还包括:
综合特征提取层,分别与所述第三跨模态循环注意力融合层和所述通道连接层连接,用于对所述修正后的RGB高层特征图和所述修正后的深度高层特征图进行综合特征提取,得到最终RGB特征图和最终深度特征图;并将所述最终RGB特征图和所述最终深度特征图传递到所述通道连接层,利用所述通道连接层将所述最终RGB特征图和所述最终深度特征图进行通道上的连接,得到融合特征图。