欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 202010581570X
申请人: 杭州电子科技大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-02-23
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于无监督深度学习的光场深度估计方法,其特征在于设计了无监督损失函数;同时从光场图像中提取一组3×3排列的子光圈图像作为光场深度估计网络的输入,输出中心子光圈图像的视差图,实现端到端的训练。

2.根据权利要求1所述的一种基于无监督深度学习的光场深度估计方法,其特征在于该方法需准备光场数据集,制作训练集和测试集,具体实现如下:步骤S1-1:根据双平面表示方法,光场图像定义为LF(u,v,s,t,c),其中(u,v)为光场角度坐标,(s,t)是光场空间坐标,c为颜色通道,u的取值范围为[-U,U],v的取值范围为[-V,V],s的取值范围为[0,W-1],t的取值范围为[0,H-1],则光场图像包含了一组(2U+1)×(2V+

1)排列的子光圈图像阵列;光场角度坐标为(u,v)的子光圈图像表示为LF(u,v)(s,t,c),中心子光圈图像表示为LF(0,0)(s,t,c),每个子光圈图像大小为W×H;

步骤S1-2:使用海德堡图像处理实验室提供的4D光场数据集作为实验数据集,该数据集包含28个场景的光场图像,并提供了高精度的视差和性能评估指标;将其中16幅光场图像用于制作训练集,剩余12幅光场图像用于制作测试集;

步骤S1-3:从光场图像的子光圈图像阵列中提取0°、45°、90°、135°、180°、225°、270°和

315°方向的最外圈子光圈图像,与中心子光圈图像一起构成一个3×3排列的稀疏子光圈图像阵列;具体如图2所示,所提取子光圈图像为LF(0,0)(s,t,c)、LF(-U,-V)(s,t,c)、LF(0,-V)(s,t,c)、LF(U,-V)(s,t,c)、LF(-U,0)(s,t,c)、LF(U,0)(s,t,c)、LF(-U,V)(s,t,c)、LF(0,V)(s,t,c)和LF(U,V)(s,t,c)。

3.根据权利要求1或2所述的一种基于无监督深度学习的光场深度估计方法,其特征在于该方法需搭建无监督光场深度估计网络,所述的无监督光场深度估计网络由两个子网络组成,分别是视差估计子网络和视差优化子网络:步骤S2-1:所述的视差估计子网络采用与UnsupervisedNet相同的网络结构;所述的视差估计子网络以步骤1-3中提取的3×3排列的稀疏子光圈图像阵列作为输入,输出为中心子光圈图像的初始视差图disp0;

步骤S2-2:所述的视差优化子网络以初始视差图disp0和中心子光圈图像的灰度图作为输入,输出优化后的中心子光圈图像视差图disp1;

优化后的中心子光圈图像视差图disp1计算公式为:

disp1=disp0+δdisp      (1)。

4.根据权利要求3所述的一种基于无监督深度学习的光场深度估计方法,其特征在于所述的视差优化子网络,具体如下:首先将disp0和中心子光圈图像的灰度图在深度通道上进行堆叠,得到大小为2×W×H×1的张量,作为视差优化子网络中第1个卷积层的输入;

第1个卷积层使用1个卷积核为2×3×3,步长为1×1×1的卷积,对输入进行特征提取,再使用ReLU函数对提取的特征图进行激活;第1个卷积层的输出为2×W×H×1的特征图Ⅰ;

第2个卷积层使用16个卷积核为2×3×3,步长为1×1×1的卷积,对第1个卷积层的输出特征图Ⅰ进行特征提取,再使用ReLU函数对提取的特征图进行激活;第2个卷积层的输出为2×W×H×16的特征图Ⅱ;

第3个卷积层使用32个卷积核为2×3×3,步长为1×1×1的卷积,对第2个卷积层的输出特征图Ⅱ进行特征提取,再使用ReLU函数对提取的特征图进行激活;第3个卷积层的输出为2×W×H×32的特征图Ⅲ;

第4卷积层使用16个卷积核为2×3×3,步长为1×1×1的卷积,对第3个卷积层的输出特征图Ⅲ进行特征提取,再使用ReLU函数对提取的特征图进行激活;第4个卷积层的输出为

2×W×H×16的特征图Ⅳ;

第5卷积层使用16个卷积核为2×3×3,步长为2×1×1的卷积,对第4个卷积层的输出特征图Ⅳ进行特征提取,再使用ReLU函数对提取的特征图进行激活;第5个卷积层的输出为

1×W×H×16的特征图Ⅴ;

第6卷积层使用1个卷积核为3×3,步长为1×1的卷积,对第5个卷积层的输出特征图Ⅴ进行特征提取,再使用Sigmoid函数对提取特征图进行激活;第6个卷积层的输出为视差残差图δdisp,大小为W×H×1。

5.根据权利要求4所述的一种基于无监督深度学习的光场深度估计方法,其特征在于无监督光场深度估计损失函数由光度一致性损失、角度熵损失和散焦损失三部分构成;具体实现如下:步骤S3-1:根据视差估计子网络的输出初始视差图disp0,将光场图像中的所有子光圈图像分别投影到中心子光圈,合成一组新的中心子光圈图像;所述的投影过程具体为:对于一幅子光圈图像LF(u,v)(s,t,c),根据投影公式合成出一幅新的中心子光圈图像LF′(u,v)(s,t,c);所述的投影公式为:LF′(u,v)(s,t,c)=LF(u,v)(s+u·disp0,t+v·disp0,c)    (2)步骤S3-2:根据视差优化子网络的输出disp1,将光场图像中的子光圈图像投影到中心子光圈,合成一组新的中心子光圈图像;所述的投影过程具体为:对于一幅子光圈图像LF(u,v)(s,t,c),根据投影公式合成出一幅新的中心子光圈图像LF″(u,v)(s,t,c);所述的投影公式为:LF″(u,v)(s,t,c)=LF(u,v)(s+u·disp1,t+v·disp1,c)    (3)步骤S3-3:根据合成的中心子光圈图像LF′(u,v)(s,t,c)和中心子光圈图像LF(0,0)(s,t,c),计算光度一致性损失Lp0,具体公式为:其中β为权重,通常取值为0.8;SSIM(·)为两幅图像的结构相似性计算函数,其计算方法为成熟方法;L′SSIM(u,v)是指投影后的中心子光圈图像LF′(u,v)(s,t,c)与中心子光圈图像之间的结构相似度差异;L′SAD(u,v)是指投影后的中心子光圈图像LF′(u,v)(s,t,c)与中心子光圈图像之间的L1距离;

步骤S3-4:根据合成的中心子光圈图像LF″(u,v)(s,t,c)和中心子光圈图像LF(0,0)(s,t,c),计算光度一致性损失Lp1,具体公式为:步骤S3-5:根据合成的中心子光圈图像LF′(u,v)(s,t,c)和中心子光圈图像LF(0,0)(s,t,c),计算角度熵损失Le0,具体公式为:其中w为常数,通常取值0.5;σ为常数,通常取值0.5;h′(u,v)(s,t,c),g′(u,v)(s,t,c)和L′e(u,v)为计算角度熵损失Le0的中间结果;

步骤S3-6:根据合成的中心子光圈图像LF″(u,v)(s,t,c)和中心子光圈图像LF(0,0)(s,t,c),计算角度熵损失Le1,具体公式为:其中w为常数通常取值0.5,σ为常数,通常取值0.5;h″(u,v)(s,t,c),g″(u,v)(s,t,c)和L″e(u,v)为计算角度熵损失Le1的中间结果;

步骤S3-7:根据合成的中心子光圈图像LF′(u,v)(s,t,c)和中心子光圈图像LF(0,0)(s,t,c),计算散焦损失Ld0,具体公式为:其中d′(u,v)和L′d(u,v)为计算散焦损失Ld0的中间结果;

步骤S3-8:根据合成的中心子光圈图像LF″(u,v)(s,t,c)和中心子光圈图像LF(0,0)(s,t,c),计算散焦损失Ld1,具体公式为:其中d″(u,v)和L″d(u,v)为计算散焦损失Ld1的中间结果;

步骤S3-9:无监督光场深度估计损失函数为:

Ltotal=Lp0+Lp1+Le0+Le1+Ld0+Ld1      (10)。

6.根据权利要求5所述的一种基于无监督深度学习的光场深度估计方法,其特征在于该方法需要使用训练集训练无监督光场深度估计网络,具体:通过步骤S1得到的训练集,送入步骤S2中搭建的无监督光场深度估计网络,根据步骤S3中设计的无监督光场深度估计损失函数Ltotal,采用Adam优化算法进行无监督光场深度估计网络的无监督训练,网络迭代优化70000次,获取到最终的模型结果;并使用测试集对模型结果进行测试。