1.一种基于注意力特征融合和多级校正的单目深度估计方法,其特征在于,包括:获取包含分辨率H×W的RGB图像和所述分辨率H×W的RGB图像的真实深度图像的数据集,利用单目深度估计数据集的训练数据集对所述RGB图像进行预处理,用以得到在单目深度估计网络模型中训练的训练数据集;
搭建单目深度估计网络模型中的S-T编码网络结构,将搭建后的所述S-T编码网络结构在图像分类数据集上进行预训练,用以得到参数初始化的S-T编码网络结构;
对所述预处理后的RGB图像进行分块处理,将分块处理后的所述预处理后的RGB图像在参数初始化的S-T编码网络结构中进行特征提取,用以得到四个分辨率的编码特征;
将所述编码特征作为所述单目深度估计网络模型中的解码网络的输入,利用注意力特征融合模块进行相邻分辨率特征的渐进融合,用以得到三个分辨率的解码特征;
将三个分辨率的所述解码特征在单目深度估计网络模型中的校正网络进行处理,通过所述校正网络的四个校正模块进行解码特征的校正,用以得出四个分辨率的估计深度图像;
利用损失函数对四个分辨率的所述估计深度图像与四个分辨率的真实深度图像对应像素点的深度值之间的差异进行求和,用以得到损失函数值,所述估计深度图像的四个分辨率与所述真实深度图像的四个分辨率一一对应;
根据所述损失函数值调整单目深度估计网络模型的参数,直到所述单目深度估计网络模型收敛,使得完成单目深度估计网络模型的训练;
将所述RGB图像输入至所述单目深度估计网络模型以获取所述RGB图像中各像素点的深度值;
利用注意力特征融合模块进行相邻分辨率特征的渐进融合包括:
使用3×3卷积+ReLU激活函数的组合,将低分辨率编码特征F
使用3×3卷积+Pixel Shuffle完成低分辨率编码特征F
将合并后的所述编码特征通过1×1卷积+ReLU激活函数和3×3卷积+ReLU激活函数的两步操作,用以对合并后的所述编码特征进行特征提取;
将提取后的所述编码特征,通过3×3卷积和Sigmoid函数,用以产生两个空间域二维注意力图;
将所述两个空间域二维注意力图分别与高分辨率编码特征F
通过所述校正网络的四个校正模块进行解码特征的校正包括:
将在上一校正模块完成校正的分辨率的校正特征与当前待校正的分辨率的解码特征进行求和操作;
将求和操作后的所述特征,使用3×3卷积+Pixel Shuffle进行分辨率的解码特征的2倍上采样;
将完成2倍上采样的分辨率的所述解码特征通过3×3卷积+ReLU激活函数进行计算,用以得到高分辨率的校正特征;
通过3×3卷积对所述高分辨率的校正特征进行计算,用以得到对应高分辨率的估计深度图像;
其中,在计算分辨率为H/8×W/8的估计深度图像时,上一级的校正模块校正后的校正特征按照输入为0处理;
计算分辨率为H×W的估计深度图像时,当前待校正的解码特征按照输入为0处理。
2.根据权利要求1所述的基于注意力特征融合和多级校正的单目深度估计方法,其特征在于,将所述分块处理后的图像在所述参数初始化的S-T编码网络中进行特征提取时包括:在一个由局部线性嵌入操作和S-T模块构成的模块组中,将分块后的RGB图像通过线性嵌入操作对每个像素的通道数据做线性变换后送入S-T模块,用以得到分辨率H/4×W/4的编码特征;
在三个由块合并操作和所述S-T模块构成的模块组中,将所述H/4×W/4的编码特征通过三组所述模块组,用以得到分辨率H/8×W/8的编码特征、分辨率H/16×W/16的编码特征、分辨率H/32×W/32的编码特征。
3.根据权利要求2所述的基于注意力特征融合和多级校正的单目深度估计方法,其特征在于,将所述编码特征作为所述单目深度估计网络模型中的解码网络的输入包括:将所述分辨率为H/16×W/16的编码特征和分辨率为H/32×W/32的编码特征,送入第一个注意力特征融合模块,得到分辨率为H/16×W/16的解码特征;
将所述分辨率为H/16×W/16的解码特征和所述分辨率为H/8×W/8的编码特征送入第二个注意力特征融合模块,得到分辨率为H/8×W/8的解码特征;
将所述分辨率为H/8×W/8的解码特征和所述分辨率为H/4×W/4的编码特征送入第三个注意力特征融合模块,得到分辨率为H/4×W/4的解码特征。
4.根据权利要求3所述的基于注意力特征融合和多级校正的单目深度估计方法,其特征在于,将所述三个分辨率的解码特征在单目深度估计网络模型中的校正网络进行处理包括:所述分辨率为H/16×W/16的解码特征送入第一个校正模块,得到分辨率为H/8×W/8的校正特征和估计深度图像;
所述分辨率为H/8×W/8的校正特征和所述分辨率为H/8×W/8的解码特征送入第二个校正模块,得到分辨率为H/4×W/4的校正特征和估计深度图像;
所述分辨率为H/4×W/4的校正特征和所述分辨率为H/4×W/4的解码特征送入第三个校正模块,得到分辨率为H/2×W/2的校正特征和估计深度图像;
所述分辨率为H/2×W/2的校正特征送入第四个校正模块,得到分辨率为H×W的估计深度图像。
5.根据权利要求4所述的基于注意力特征融合和多级校正的单目深度估计方法,其特征在于,利用损失函数对四个分辨率的所述估计深度图像与四个分辨率的真实深度图像对应像素点的深度值之间的差异进行求和包括:利用双线性插值算法,对所述分辨率H×W的RGB图像的真实深度图像进行下采样,得到分辨率H/2×W/2、H/4×W/4和H/8×W/8的真实深度图像;
利用损失函数计算分辨率H/8×W/8、H/4×W/4、H/2×W/2和H×W的估计深度图像与分辨率H/8×W/8、H/4×W/4、H/2×W/2和H×W的真实深度图像之间差异进行求和,其中损失函数表达式为:其中
6.根据权利要求5所述的基于注意力特征融合和多级校正的单目深度估计方法,其特征在于,所述S-T编码网络结构包括四个模块组,所述四个模块组包括:一个由局部线性嵌入操作和S-T模块构成的模块组,三个由块合并操作和所述S-T模块构成的模块组,并将所述S-T编码网络结构在所述图像分类数据集上进行Epoch为100的预训练并保存预训练后的参数,用以作为S-T编码网络结构的初始化参数。
7.根据权利要求6所述的基于注意力特征融合和多级校正的单目深度估计方法,其特征在于,对所述RGB图像进行分块处理时,将所述RGB图像划分为每4×4相邻的像素为一个块后,在通道方向展平使得RGB图像划分为不重合的图像块集合,所述图像块集合中的每个图像的特征维度为H/4×W/4,块的数量为48。
8.根据权利要求7所述的基于注意力特征融合和多级校正的单目深度估计方法,其特征在于,根据所述损失函数值调整单目深度估计网络模型的参数时,通过将优化器的基本学习率设置为0.0001,并且每5个周期将所述基本学习率降低10%,其中,用来计算指数的加权平均数为β1=0.9,用来计算平方数的指数的加权平均数为β2=0.999,单目深度估计网络训练参数Batch的大小为30,并使用0.0001的衰减率;
利用单目深度估计数据集的训练数据集对所述数据集进行预处理时,对所述分辨率为H×W的RGB图像进行数据扩充操作,所述数据扩充操作包括缩放操作、旋转操作、颜色抖动操作和翻转操作;
所述缩放操作为使用随机数 s ∈[1,1.5]对所述RGB图像进行比例缩放;
所述旋转操作为将所述RGB图像和所述RGB图像的真实深度图像都以随机度r ∈[-5,5] 进行旋转;
所述颜色抖动操作为将所述RGB图像的亮度、对比度和饱和度分别乘以 k ∈[0.6,1.4] 进行调整;
所述翻转操作为将所述RGB图像和所述RGB图像的真实深度图像以概率50%进行垂直翻转。