欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2018108447670
申请人: 杭州电子科技大学
专利类型:发明专利
专利状态:已下证
专利领域: 电通信技术
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于卷积神经网络的立体图像视差匹配方法,其特征在于,包括如下步骤:步骤(1):图像预处理;对带有参考实参图的立体图像对的左图和右图分别作归一化处理,使其图像像素值在[-1,1]中;

步骤(2)构造用于端到端学习的卷积神经网络;

包括以下网络层:

2-1.构造一个2D卷积操作层,由降采样层和残差块构成,每层网络后面跟随一个批量归一化层和一个已校正的非线性层;

利用5*5的卷积核对输入图像先进行一次降采样操作,降采样因子为2,随后利用残差块对图像进行操作,该残差块总共有8个,且每个残差块由两个3*3的卷积核组成,输出为图像的一元特征;

2-2.构造计算立体匹配代价层;

利用深度一元特征生成的成本量计算立体匹配的代价,并将步骤2-1中2D卷积操作层的输出级中的每个一元特征与对应的立体图像元组进行连接,并将其打包进一个4D量中;

其中深度一元特征生成的成本量的维度为H*W*(D+1)*F,其中H、W分别为图像的高和宽,D为最大的视差值,F表示图像特征;

2-3.构造学习上下文层;

先由四层降采样组成3D正则化网络层,每层降采样因子为2,在编码级别中应用两个3*

3*3的卷积,使得3D成本量的尺寸减少1/8;接着利用3D反卷积操作对解码器中的向量进行上采样操作,上采样因子为2,在解码级别中应用一个3*3*3的卷积,并在每个上采样层之前添加一个残差层,以此来保留图像中的高频率信息;最后由一个单3D反卷积层输出正则化的成本量,成本量维度为H*W*D;

2-4.构造视差估计层;

该网络层由LSMT神经网络构成,LSTM神经网络由包含四个交互层的重复模块构成,每个模块里由三个门来控制细胞单元状态信息,该三个门分别是输入门,遗忘门和输出门,每个门由一个sigmoid神经网络层和一个pointwise乘法操作构成;将步骤2-3中生成的成本量输入该网络层,输出的结果便是视差图;

每个模块具体交互步骤如下:

2-4-1.利用遗忘门决定从细胞状态中去除信息或对其增加信息,其中sigmoid层输出

0-1之间的数值来描述每个部分多少量可通过,0表示不许任何量通过,1表示允许任意量通过;

2-4-2.确定何种新信息将被存放在细胞状态中;首先利用输入门确定什么值需要更新,接着用一个tanh层创建一个新的候选值向量加入到状态中进行更新;

2-4-3.确定输出值;通过sigmoid层确定细胞状态的某部分将输出,接着将细胞状态通过tanh层进行处理得到一个[-1,1]的值,并将其和sigmoid门的输出相乘,最终得到确定的输出值;

步骤(3)网络训练;

收集数据集,在训练集数据输入网络进行训练之前,对数据进行归一化处理,并设置网络模型的相关参数,接着对网络进行有监督的反向传播算法训练,直到监督回归损失收敛,得到训练网络;

收集的数据集来源于两个开源数据库,sceneflow和KITTI,网络参数设置包括选择RMSProp为优化方式,设置学习率为1e-3,并设定F,D相应的值为32,192,网络训练在TensorFlow框架下进行;训练过程有两部分组成,先使用包含大量图像数据的sceneflow数据集对网络进行预训练,得到一个预训练模型,然后在这个预训练模型上进行微调,接着训练包含图像数量较少的KITTI数据集;回归损失的计算公式如下:其中N表示图像中的总像素数,dn表示网络预测出来的视差图, 表示已有的标准视差图ground truth;

步骤(4)求视差图;

从测试集中取几组立体图像对,进行步骤(1)的预处理;将其输入步骤(3)中训练完成的网络,得到相应的视差图。