1.一种融合视觉感知自适应去雾的实时目标检测方法,其特征在于:结合图像去雾模块与检测模块实现不同天气场景下的自适应去雾车辆行人实时检测,输出图片中的人与车辆检测框以及置信度,具体包括如下步骤:(1)从网络获取公开去雾数据集以及检测数据集;
(2)将步骤(1)中获得的去雾数据集中对应的带雾与清晰成对图片进行编码,将带雾图片标注类别为0,清晰图片标注类别为1;
(3)利用现有SOTA去雾方法对上述去雾数据集中的带雾图片进行重建,得到的重建图片数据集作为视觉感知评价的测试图片;
(4)将步骤(3)中的重建图片以及对应的带雾图片,清晰图片编组作为眼动刺激性材料,进行眼动追踪实验得到相应的视觉感知数据;
(5)将步骤(4)中的视觉感知数据进行处理,得到对应测试图片的评分;
(6)基于ConvNeXT模型训练得到视觉感知评分模型;
(7)构建去雾模块,所述去雾模块由下采样层,分类层以及重建、去雾双分支结构构成,仅训练去雾模块中的下采样层和分类层,将步骤(2)的成对图片以及对应类别作为输入进行训练,得到自适应分类层;
去雾模块的具体结构如下;
下采样层首先经过ReflectionPad2d()函数对输入图片四周进行填充,接着是三层下采样卷积层,卷积核大小分别是7*7,3*3,3*3,每个卷积层之后跟着一次ReLU激活函数,最终得到输入图片的下采样特征;分类层由3*3卷积,展平以及全连接层组成,最终经过Sigmoid激活函数,输出通道数为分类数2;去雾、重建分支为双分支结构,根据分类层得到的输出类别对图片进行不同的重建操作;
当分类层输出类别为1时代表输入为清晰图片,则选择重建分支进行图片重建,其中重建分支采用转置卷积对下采样后的特征进行上采样重建,得到重建后的清晰图片,其中转置卷积卷积核大小分别为3*3,3*3,7*7;然后利用自适应特征融合模块将下采样浅层特征与重建上采样特征动态融合,从而实现更好的重建效果;在这里,使用BReLU算子作为融合因子的激活函数,具体的融合公式如下: 式三
其中 表示第i个下采样特征,为可学习因子;
当分类层输出类别为0时代表输入为带雾图片,则选择去雾分支进行图片重建;相比于重建分支,去雾分支在重建之前通过加入若干个串联的融合通道注意力层与像素注意力层的残差去雾块,对带雾图片进行有效去雾处理,然后再经过与重建分支中相同的上采样处理和自适应特征融合处理得到去雾后的重建图片;
(8)基于ResNet50模型构建对比学习模型,经过ResNet50预训练模型提取带雾图片,去雾重建图片以及清晰图片不同分辨率下的输出特征,以L1损失作为每层特征距离度量加权融合作为对比学习损失,其中去雾重建图片为去雾模块的输出;
(9)训练整体去雾模块,输出去雾重建图片,并将去雾重建图片作为输入送入步骤(6)的视觉感知评分模型与步骤(8)的对比学习模型得到视觉感知损失与对比学习损失,二者与分类损失,图片重建的L1损失加权融合作为去雾模块的整体损失;
(10)冻结去雾模块,在检测数据集上对检测模块进行预训练;
步骤(10)中检测模块包含主干特征提取网络,颈部特征融合与解耦检测头三个部分,输入为去雾模块输出的去雾后重建图片,主干特征提取网络使用ELAN‑Darknet,并将部分卷积层用可重参数化卷积RepConv代替,得到不同分辨率的下采样特征;颈部特征融合用于对主干特征提取网络提取的不同分辨率下的下采样特征进行融合,得到不同尺度的具有高级语义的特征图,然后通过解耦检测头进行目标的检测;
解耦检测头采用分类与回归双分支检测结构,在分类检测分支首先经过可重参数化卷积,然后将特征输入隐式学习块ImplicitA与ImplicitM,ImplicitA对输入与全0的隐式可学习向量相加,ImplicitM对输入与全1的隐式可学习向量相乘;最终通过卷积得到分类输出大小H*W*C,H、W为输入特征的高度与宽度,不同下采样层输入大小不同,C代表检测目标类别数目;同样,回归检测分支的结构与分类检测分支结构相同,最终得到回归框特征与类别置信度特征,通道数分别为4和1;
(11)对步骤(10)中得到的检测模块进行微调,得到清晰图片以及图片中车辆与行人的回归框和置信度。
2.如权利要求1所述的一种融合视觉感知自适应去雾的实时目标检测方法,其特征在于:步骤(3)中的SOTA去雾方法包括暗通道先验,FFA‑Net,MSBDN,重建图片即为经过SOTA去雾方法去雾后的图片。
3.如权利要求1所述的一种融合视觉感知自适应去雾的实时目标检测方法,其特征在于:步骤(4)所述视觉感知数据为测试者观察每组图片得到的眼动注视指标,包括平均注视时间,平均注视点个数以及瞳孔直径三个指标,步骤(5)中是将三个指标进行最大最小值归一化处理,并通过加权融合得到最终主观评价得分,具体计算公式如下: 式一
其中A代表评价指标,A_min、A_max代表指标中的最小值与最大值;
式二
其中W'代表最终主观评价得分,分数在0‑10之间, 为权重系数,h、j、s代表每组测试得到的平均注视时间,平均注视点个数以及瞳孔直径。
4.如权利要求1所述的一种融合视觉感知自适应去雾的实时目标检测方法,其特征在于:残差去雾块中,首先经过3*3卷积以及ReLU激活,然后将输出与原始输入相加得到融合后特征;然后再经过3*3卷积以及通道注意力层与像素注意力层对融合特征进行有效去雾处理,并于原始输入相加,得到最终去雾处理后输出特征;其中通道注意力层经过全局自适应池化、卷积操作提取图片全局特征,经过Sigmoid函数映射得到特征权重,与原始特征加权相乘得到通道注意力;像素注意力层则不需要经过全局池化,直接进行卷积映射得到权重。
5.如权利要求1所述的一种融合视觉感知自适应去雾的实时目标检测方法,其特征在于:步骤(8)中对比学习损失具体计算步骤如下:(81),经过ResNet50预训练模型,将带雾图片、清晰图片以及去雾重建图片作为输入,得到对应不同分辨率下的特征;
(82),计算去雾重建图片分别与带雾图片,清晰图片在不同分辨率下特征的L1距离损失,加权融合各层分辨率损失得到最终的对比学习损失,具体公式如下: 式四
其中, 表示从ResNet50第i个下采样层输出的特征,D(x,y)表示变量x,y之间的L1距离,I、J分别代表输入的图片与标签清晰图片,O为去雾后的重建图片, 表示权重系数。
6.如权利要求5所述的一种融合视觉感知自适应去雾的实时目标检测方法,其特征在于:权重系数 为下采样倍数的倒数逆序,即依次为1/32、1/16、1/8、1/4、1。
7.如权利要求1所述的一种融合视觉感知自适应去雾的实时目标检测方法,其特征在于:步骤(9)中将清晰图片作为标签,去雾模块输出的重建后图片与之对比,计算L1损失作为去雾模块的重建损失;将分类层输出与标注标签计算二元交叉熵损失作为分类损失;将去雾模块输出的重建图片以及对应带雾图像,清晰图像作为输入,计算步骤(6)与步骤(8)中的视觉感知损失与对比学习损失;将上述损失加权融合,得到最终整体去雾模块的损失;
具体公式表示如下:
式五
式六
式七
式八
其中,Reconstruction Loss、Contrastive Loss、Classification Loss、Vision Loss分别代表重建损失、对比学习损失、分类损失、视觉感知损失,I、J分别为输入图片与对应的标签清晰图片,Dehaze代表去雾模块;式六中, 表示从ResNet50第i个下采样层输出的特征,D(x,y)表示变量x,y之间的L1距离,I、J分别代表输入的图片与标签清晰图片,O为去雾后的重建图片, 表示权重系数;式七中y代表真实标签值,x代表模型预测类别概率,n为样本大小;式八中Score代表步骤(6)中得到的视觉感知评分模型,由于目标为最小化视觉感知损失,故使用与满分的差值作为视觉感知损失函数;
去雾模块总损失为:
式九
其中, 为各损失函数的系数。