知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13095918853 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13095918853

知嘟嘟经纪人

一种基于光流与深度学习的视觉里程计实现方法和系统

￥38400

专利号： 2018103532018

申请人：长沙学院

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2024-01-05

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种基于光流与深度学习的视觉里程计实现方法，其特征在于，包括以下步骤：(1)通过相机获取视频中的连续两幅照片，并使用卷积神经网络对其中的第一幅照片I1进行估计，以得到估计后的光流照片，该照片是用以下估计矩阵A1表示：A1＝(u1,v1)T

其中u1和v1分别表示估计得到的照片中像素点的横坐标和纵坐标；

(2)根据估计后的照片并使用双线性插值法对第二幅照片I2进行处理，以得到扭曲图并根据扭曲图和第一幅照片得到光度误差e1：(3)将第一幅照片I1、第二幅照片I2、估计矩阵A1、以及光度误差e1输入到另一个卷积神经网络中，以得到另一幅估计后的光流照片，该照片用估计矩阵A2表示；

(4)对步骤(3)中得到的另一幅估计后的光流照片进行下采样处理(例如采样到155*

48)，将下采样处理后的照片输入到基于自编码器的网络中，以得到多维运动描述算子；步骤(4)包括以下子步骤：(4-1)对步骤(3)中得到的另一幅估计后的光流照片进行下采样处理；

(4-2)利用基于自编码器的网络中的编码器对下采样处理后的光流照片进行编码，以得到多维矩阵，具体采用以下公式：其中u表示下采样处理后的照片，z表示得到的多维矩阵中的元素，l表示得到的多维矩阵的维数，w表示基于自编码器的网络中编码器的权重；

(4-3)利用基于自编码器的网络中的解码器对步骤(4-2)中得到的多维矩阵进行解码，以得到另一幅光流照片；

(4-4)计算步骤(4-3)中得到的另一幅光流照片与步骤(3)中得到的另一幅估计后的光流照片之间的欧氏距离作为基于自编码器的网络的损失函数，并通过最小化损失函数确定编码器的权重；

(4-5)根据步骤(4-4)中确定的编码器的权重，并使用步骤(4-2)中的公式计算得到多维矩阵；

(4-6)将步骤(4-5)得到的多维矩阵输入全连接网络，从而得到多维运动描述算子；

(5)对于视频中的其余图片，重复上述步骤(1)至步骤(4)，直到所有图片均处理完毕为止，得到的多个多维运动描述算子构成相机的运动轨迹。

2.根据权利要求1所述的视觉里程计实现方法，其特征在于，步骤(4-2)具体为，输入光流图片经过卷积核大小为64×5×5，步长为2×2的卷积后再使用ReLU激活函数引入非线性操作，从而得到第一卷积层大小为64×150×47，再经过2×2的最大池化后得到第一池化层，输出的大小为64×75×24，第二层卷积核大小为64×3×3，卷积步长为1×1，使用ReLU激活函数，再经过2×2的最大池化后得到第二池化层，大小为64×38×12；第三层卷积核大小同样为64×3×3，卷积步长为1×1，使用ReLU激活函数，并且输出的第三卷积层大小为64×38×12，最终得到多维矩阵。

3.根据权利要求2所述的视觉里程计实现方法，其特征在于，步骤(4-3)具体为，多维矩阵首先经过卷积核大小为6×3×3、卷积步长为4×4的反卷积操作，再使用ReLU激活函数进行非线性操作，从而得到大小为6×152×48的第一反卷积层，然后，将第一反卷积层大小裁剪到6×150×47，随后，再经过卷积核大小为2×3×3，卷积步长为2×2的转置卷积操作，并利用ReLU激活函数进行非线性操作，从而输出2×300×94的光流照片。

4.根据权利要求3所述的视觉里程计实现方法，其特征在于，步骤(4-6)具体为，多维矩阵经过2×2的最大池化后得到第三池化层，其大小为64×19×6，然后通过融合层将多维矩阵和第三池化层串接到成一维向量，然后输入给全连接层处理，其中全连接层是由2个激活层组成，且均使用线性整流函数ReLU，最后输出的6维向量就是多维运动描述算子。

5.根据权利要求1所述的视觉里程计实现方法，其特征在于，步骤(1)和步骤(3)中的卷积神经网络均采用六层卷积神经网络。

6.根据权利要求1所述的视觉里程计实现方法，其特征在于，多维运动描述算子包括三维坐标、以及分别围绕X、Y和Z轴旋转的欧拉角。

7.一种基于光流与深度学习的视觉里程计实现系统，其特征在于，包括：

第一模块，用于通过相机获取视频中的连续两幅照片，并使用卷积神经网络对其中的第一幅照片I1进行估计，以得到估计后的光流照片，该照片是用以下估计矩阵A1表示：T

A1＝(u1,v1)

其中u1和v1分别表示估计得到的照片中像素点的横坐标和纵坐标；

第二模块，用于根据估计后的照片并使用双线性插值法对第二幅照片I2进行处理，以得到扭曲图并根据扭曲图和第一幅照片得到光度误差e1：第三模块，用于将第一幅照片I1、第二幅照片I2、估计矩阵A1、以及光度误差e1输入到另一个卷积神经网络中，以得到另一幅估计后的光流照片，该照片用估计矩阵A2表示；

第四模块，用于对第三模块中得到的另一幅估计后的光流照片进行下采样处理，将下采样处理后的照片输入到基于自编码器的网络中，以得到多维运动描述算子；第四模块包括以下子子模块：第一子模块，用于对第三模块中得到的另一幅估计后的光流照片进行下采样处理；

第二子模块，用于利用基于自编码器的网络中的编码器对下采样处理后的光流照片进行编码，以得到多维矩阵，具体采用以下公式：其中u表示下采样处理后的照片，z表示得到的多维矩阵中的元素，l表示得到的多维矩阵的维数，w表示基于自编码器的网络中编码器的权重；

第三子模块，用于利用基于自编码器的网络中的解码器对第二子模块中得到的多维矩阵进行解码，以得到另一幅光流照片；

第四子模块，用于计算第三子模块中得到的另一幅光流照片与第三模块中得到的另一幅估计后的光流照片之间的欧氏距离作为基于自编码器的网络的损失函数，并通过最小化损失函数确定编码器的权重；

第五子模块，用于根据第四子模块中确定的编码器的权重，并使用第二子模块中的公式计算得到多维矩阵；