1.一种RGB‑D显著性目标检测方法,其特征在于,具体包括如下步骤:S1,输入RGB图像和深度图像;
S2,利用基于T2T‑ViT的transformer编码器对RGB图像进行特征提取,利用基于轻量级卷积网络MobileNet V2的编码器对深度图像进行特征提取,分别获取RGB图像和深度图像不同层级的显著性特征;
轻量级卷积网络MobileNet V2的编码器包括:MobileNet V2模块一、MobileNet V2模块二、MobileNet V2模块三和MobileNet V2模块四;
步骤S2的基于T2T‑ViT的transformer编码器中的T2T操作包括:重组和软拆分,所述重组是将一个token序列 重建成一个3D张量 其中,l是token序列Tok的长度,c是token序列Tok和3D张量I的通道数,h,w分别代表I的高度和宽度,且l=h×w;
h×w×c
所述软拆分是通过展开操作将I软分割成k×k大小的块,I∈R 经所述软拆分后得到token序列,其长度l0可以表示为:其中,s代表块之间像素重叠个数,p代表块之间像素填充个数,k‑s代表卷积运算中的步长,当s
原始RGB图像 其中H,W,C分别代表Iinput的高度、宽度和通道数,经过重组得到的token序列 经过三轮Transformer转换和两轮T2T操作得到了多级tokens序列T′,T1,T′1,T2,T′2,这一过程可以表示为:T′=Transformer(T),
T1=Unfold(Reshape(T′)),
T1′=Transformer(T1),
T2=Unfold(Reshape(T1′)),
T2′=Transformer(T2)
S3,利用基于跨模态Transformer融合模块,融合深层次RGB特征和深度特征之间的互补语义信息,生成跨模态联合特征;
步骤S3中的跨模态Transformer融合模块CMTFM包括:跨模态交互注意力模块和Transformer层,所述跨模态交互注意力模块,用于对RGB图和深度图之间的远程跨模态依赖进行建模,整合RGB数据和深度数据之间的互补信息;来自RGB块标记的信息流T′2和深度块标记的信息流C4通过4次跨模态交互注意力模块来进行跨模态信息交互后,再经过一个4层Transformer层进行强化得到了token序列T3;
S4,利用密集连接增强的跨模态密集协作聚合模块实现两种不同模态的特征融合,逐级融合不同尺度上的深度特征和RGB特征,输入到显著性目标检测部分;
步骤S4中,来自T2T‑ViT的经重组后的RGB信息T′,T1′,T3和来自MobileNet V2的深度信息C1,C2,C3,C4被输入到密集连接增强后的解码器,密集连接用于将不同尺度上的深度特征和RGB特征进行融合;其中MobileNet V2模块一、MobileNet V2模块二、MobileNet V2模块三和MobileNet V2模块四分别输出深度信息C1、C2、C3、C4;
S5,按照预测的显著图分辨率由小到大排序,并利用真值图对网络进行有监督学习,输出最终的显著性检测结果;
步骤S4的跨模态密集协作聚合模块包括:三个特征聚合模块和一个双重倒残差模块,跨模态密集协作聚合模块用于将低分辨率编码器特征扩展到与输入图像分辨率大小一致,所述特征聚合模块用于聚合特征和融合跨模态信息;
所述特征聚合模块包括:一个CBAM和两个倒残差结构IRB,还包含了两个元素相乘和一个元素相加操作;基于特征聚合模块的特征聚合和融合跨模态信息过程包括如下步骤:S4.1,RGB特征TR和深度特征TD进行相乘,再经过一个IRB进行卷积后得到过渡的RGB‑D特征图D,此过程表示为:D=IRB(TR×TD);
其中,TR包括:T′、T1′和T3,TD包括:C2、C3、C4;
S4.2,深度特征TD经CBAM增强后的特征记为T″D,此过程表示为:T′D=Channel(TD)×TD;
T″D=Spatial(T′D)×T′D
S4.3,D再与深度特征T″D再次相乘强化语义特征后得到D′,此过程表示为:D′=D×T″D;
S4.4,D′与RGB特征TR相加以重新增强显著特征,同时引入较低层次的输出特征TDC进行元素相加,然后使用IRB,得到跨模态融合后的RGB‑D特征D″,此过程表示为:TR′=TR+D′
D″=IRB(TR′+TDC)。
2.根据权利要求1所述的一种RGB‑D显著性目标检测方法,其特征在于,步骤S2中,基于轻量级卷积网络MobileNet V2的编码器包括倒残差结构。
3.根据权利要求2所述的一种RGB‑D显著性目标检测方法,其特征在于,经跨模态Transformer融合模块,得到跨模态交互信息的公式,表示为:其中,QR、QD分别为两种模态的查询,KR、KD分别为两种模态的键,VR、VD分别为两种模态的值。
4.根据权利要求1所述的一种RGB‑D显著性目标检测方法,其特征在于,步骤S5中,预测的显著图由调整相应大小后的真值图进行监督,将这一阶段产生的四个损失表示为总的损失函数Ltotal计算公式如下:其中,λi表示每个损失的权重,按照分辨率由小到大的顺序将四个显著性预测图依次记为Pi(i=1,2,3,4),Gi表示来自真值图的监督,其分辨率与Pi对应,BCE()表示交叉熵损失函数。