1.一种基于完整上下文信息的单目深度估计方法,其特征是,包括:
获取待估计图像,对待估计图像进行预处理;
将预处理后的待估计图像输入至深度估计网络中,提取待估计图像的完整上下文信息,进行深度估计,输出深度图像;
所述深度估计网络采用跳跃连接的编码器‑解码器结构,所述编码器包括Transformer分支和卷积分支;所述Transformer分支包括多个依次连接的下采样层,用于捕获图像中的全局上下文信息,提取全局特征;所述卷积分支包括卷积编码层和底层信息提取模块,用于捕获图像中包括底层纹理信息的局部上下文信息,提取局部特征;全局特征和局部特征经过特征交互模块进行特征交互后输入至广域多尺度解码器,通过逐层上采样和图像重投影作为监督信号,预测并输出深度图像;所述卷积分支中的卷积编码层为深度残差网络ResNet的前两层卷积层,用于提取局部上下文信息;所述卷积分支中的底层信息提取模块输出统计纹理特征;将统计纹理特征与基于卷积编码层输出的原始特征融合,得到最终的局部特征。
2.如权利要求1所述的基于完整上下文信息的单目深度估计方法,其特征是,所述预处理包括:
通过分区算子对输入的待估计图像进行分割,分割得到多个大小一致的图像块。
3.如权利要求1所述的基于完整上下文信息的单目深度估计方法,其特征是,所述Transformer分支包括多个依次连接的下采样层,每个下采样层包括补丁合并层和多个Transformer块,每个Transformer块包括一个多头自注意模块和一个多层感知器模块,以及两个归一化层。
4.如权利要求1所述的基于完整上下文信息的单目深度估计方法,其特征是,将Transformer分支输出的全局特征和卷积分支输出的局部特征输入至所述特征交互模块中,分别经过 卷积后得到第一全局特征与第一局部特征;
第一全局特征经过自注意力模块得到第二全局特征,第一局部特征经过交叉注意力模块得到第二局部特征;其中,将自注意力模块中的Vaule值作为交叉注意力模块中的Vaule值,计算交叉注意力,建模亲和力;
第二全局特征和第二局部特征分别通过通道级联和 卷积,将全局特征和第二全局特征、局部特征和第二局部特征结合起来,分别得到特征交互后的全局特征和局部特征。
5.如权利要求1所述的基于完整上下文信息的单目深度估计方法,其特征是,所述底层信息提取模块包括纹理特征提取模块和金字塔纹理特征提取模块;
所述纹理特征提取模块中,基于卷积编码层输出的原始特征图,利用一维量化和计算算子,以统计方式描述纹理信息,获取统计特征和量化特征;基于统计特征和量化特征,通过矩阵相乘,得到并输出纹理特征;
所述金字塔纹理特征提取模块中,将纹理特征提取模块输出的纹理特征图融合原始特征图作为输入特征图,对输入特征图从多个尺度上利用二维量化和计算算子,得到多尺度的共现统计特征;多尺度的共现统计特征分别通过多层感知机后进行上采样,将上采样的特征连接起来,得到并输出统计纹理特征。
6.如权利要求1所述的基于完整上下文信息的单目深度估计方法,其特征是,所述广域多尺度解码器采用空间金字塔池的结构与广域注意力协作,所述广域多尺度解码器由5个平行的分支组成,包括一个快捷连接分支、三个不同下采样率的广域注意力分支和一个图像池化分支;
所述广域注意力分支用于为局部窗口提供多个层次的感受野;所述图像池化分支用于通过全局池化层获得全局上下文信息,并通过线性转换和双线性上采样运算,匹配特征维度;所述快捷连接分支用于复制输入特征,并在所有上下文信息输出后粘贴所复制的输入特征。
7.如权利要求6所述的基于完整上下文信息的单目深度估计方法,其特征是,所有分支输出的特征连接后,通过一个学习的线性变换进行降维操作,生成最终的深度图像。
8.一种基于完整上下文信息的单目深度估计系统,其特征是,包括:
图像获取及预处理模块,用于获取待估计图像,对待估计图像进行预处理;
深度估计模块,用于将预处理后的待估计图像输入至深度估计网络中,提取待估计图像的完整上下文信息,进行深度估计,输出深度图像;
所述深度估计网络采用跳跃连接的编码器‑解码器结构,所述编码器包括Transformer分支和卷积分支;所述Transformer分支包括多个依次连接的下采样层,用于捕获图像中的全局上下文信息,提取全局特征;所述卷积分支包括卷积编码层和底层信息提取模块,用于捕获图像中包括底层纹理信息的局部上下文信息,提取局部特征;全局特征和局部特征经过特征交互模块进行特征交互后输入至广域多尺度解码器,通过逐层上采样和图像重投影作为监督信号,预测并输出深度图像;所述卷积分支中的卷积编码层为深度残差网络ResNet的前两层卷积层,用于提取局部上下文信息;所述卷积分支中的底层信息提取模块输出统计纹理特征;将统计纹理特征与基于卷积编码层输出的原始特征融合,得到最终的局部特征。