1.一种直接法无监督单目图像场景深度估计方法,其特征在于:包括如下步骤:步骤1:构建深度估计神经网络,以单目连续图像作为输入图像,利用深度估计神经网络输出深度估计图像;
步骤2:计算初始相机位姿,利用输入图像的上一帧图像、深度估计图像以及相机位姿计算重投影图像,并将重投影图像与当前帧图像进行重投影误差计算,利用反向传播进行深度估计网络的参数更新,获得一个新的深度估计图像;
步骤3:利用重投影图像与输入图像计算图像蒙版,更新前后两帧图像之间的相机位姿估计,重复迭代步骤2、3;
在步骤3中,具体包括如下步骤:
步骤3.1:根据重投影图像与当前帧图像计算相似度误差,获得图像蒙版;
步骤3.2:计算上一帧图像与获得的相机位姿之间的雅克比矩阵;
步骤3.3:将图像蒙版与雅克比矩阵相乘,获得改进的雅克比矩阵;
步骤3.4:利用改进的雅克比矩阵,更新前后两帧图像之间的相机位姿估计;
步骤3.5:重复迭代步骤2、3。
2.根据权利要求1所述的一种直接法无监督单目图像场景深度估计方法,其特征在于:在步骤1中,具体包括如下步骤:
步骤1.1:构建的深度估计神经网络为全卷积U型,卷积部分使用Res‑Net18网络结构中的卷积网络作为主体结构网络;
步骤1.2:反卷积部分包含若干层反卷积层与ReLu激活层叠加作为主体结构,每层反卷积层与卷积部分中尺度相同的卷积块中的最后一层卷积层相连接,形成最终的反卷积层;
步骤1.3:以单目连续图像作为训练数据集,并在输入深度估计神经网络之前进行包括图像反转、伽马变换、颜色通道变化的样本扩充和泛化操作。
3.根据权利要求1所述的一种直接法无监督单目图像场景深度估计方法,其特征在于:在步骤2中,具体包括如下步骤:
步骤2.1:预先标定出相机的内参数或从数据集中获得相机的内参数;
步骤2.2:利用当前帧图像以及上一帧图像,采用直接法计算初始相机位姿;
步骤2.3:利用输入图像的上一帧图像与深度估计图像以及相机位姿计算重投影图像;
步骤2.4:计算当前帧图像与重投影图像之间的重投影误差;
步骤2.5:利用深度估计神经网络输出的深度估计图像和图像重投影误差,并通过反向传播进行深度估计神经网络的参数更新,获得一个新的深度估计图像。
4.根据权利要求2所述的一种直接法无监督单目图像场景深度估计方法,其特征在于:所述卷积部分使用Res‑Net18网络结构中的卷积网络作为主体结构网络,由5个卷积块和5个反卷积块组成,第1个卷积块中包含1个卷积组,卷积组中包含1个卷积层,该卷积层的输入为3通道彩色图像,输出为64通道,第2、3、4、5个卷积块中分别包含2个卷积组,每个卷积组中分别包含2个卷积层,第2、3、4、5个卷积块中包含的通道数分别为64、128、256和512,所述反卷积块中反卷积组的数量是对应尺度卷积块中卷积组数量的2倍,各个反卷积块中的每个卷积组中包含的通道数分别为512、256、128、64、1。
5.根据权利要求2所述的一种直接法无监督单目图像场景深度估计方法,其特征在于:上一个卷积块与下一个卷积块之间通过最大池操作连接,最大池操作也将相邻的两个卷积块中的下一个卷积块中的尺寸缩放为上一个卷积块的二分之一,相邻的两个卷积块中下一个反卷积块的尺度为上一个反卷积块尺度的2倍,每个卷机组和反卷积组中的卷积层和反卷积层之间通过3*3卷积方式连接,此外,将第二个卷积块的内容复制到第四个反卷积块中,第五个卷积块的内容复制到第三个反卷积块中。