1.一种基于深度学习的视觉里程计特征点提取方法,其特征在于,包括以下步骤:步骤1:构建深度学习特征点模型;
所述模型是利用自监督学习方式对角点进行提取并生成对应描述子的网络模型,包括对人工角点预训练、对真实图片角点自标注、联合训练三个阶段;
步骤2:优化深度学习特征点模型;
步骤3:特征点检测;
步骤4:特征点匹配。
2.根据权利要求1所述的基于深度学习的视觉里程计特征点提取方法,其特征在于:步骤1中所述对人工角点预训练,使用OpenCV图像处理库生成预定数量的包含简单几何形状的图像,图像中加入高斯噪声,并记录相应的角点标注信息,作为标签;使用VGG-16网络对这些人工生成的标注图像进行训练得到一个基础角点检测器。
3.根据权利要求2所述的基于深度学习的视觉里程计特征点提取方法,其特征在于:步骤1中所述对真实图片角点自标注,结合Homegraphic Adaptation方法,使用人工角点预训练中得到的基础角点检测器对若干自然场景图像进行角点提取,即通过自监督的方式得到自然场景图像的角点标注信息。
4.根据权利要求3所述的基于深度学习的视觉里程计特征点提取方法,其特征在于:步骤1中所述联合训练,使用Warp方法,对真实图片角点自标注中所得的带有标注信息的图像进行仿射变换,生成角点标注图像对;使用VGG-16网络对角点标注图像对进行再训练,通过最小化角点距离误差函数和图像对匹配误差函数,得到能同时提取角点和描述子的模型。
5.根据权利要求4所述的基于深度学习的视觉里程计特征点提取方法,其特征在于:步骤2中所述优化深度学习特征点模型,针对联合训练中,对仿射变换的图像进一步实施光度变换,使用亮度非线性逐点调整方法对图像亮度进行Gamma调整,图像亮度Gamma调整为:I'(x,y)=(I(x,y)/255)γ·255,0.5≤γ≤2 (1)其中,I(x,y)和I'(x,y)分别是像素(x,y)的灰度值和校正值,γ为调整参数,取值区间为[0.5,2],当γ值大于1可增加图像亮度,反之则降低图像亮度。
6.根据权利要求4所述的基于深度学习的视觉里程计特征点提取方法,其特征在于,步骤3的具体实现包括以下子步骤:步骤3.1:对单张图像进行特征点提取,得到特征点集P,对于某个特征点(x,d)∈P,其中x为角点,d为对应的描述子;
x=(u,v,c)T,c∈(0,1) (2)d=(d0,d1,…,d255)T,di∈(-1,1),i=0,1,...,255 (3)其中,x为一个列向量,表示单个角点,u,v为角点在图像的像素坐标,第3维c为角点像素坐标的置信度;d为描述子,d0~d255为描述子每个维度的大小;
步骤3.2:使用非极大值抑制方法对角点进行筛选;
(1)首先创建一个像素网格矩阵G,其维度为h×w,h、w分别等于被检测图像的像素高度和宽度;
(2)提取角点x的像素坐标(u,v)为索引值,将G中对应元素赋值为1,其余赋值为0;
(3)创建一个形状为α×α的滑动窗口W,其中α为抑制距离,以α为横向和纵向步长对G进行遍历,并将遍历重叠部分的角点置信度按照维度索引赋值给A;
(4)以公式4为判定标准对角点进行抑制,其中Px表示特征点的角点集合;
(5)经过遍历,G中元素等于-1的维度索引,即为最终保留的特征点的像素坐标。
7.根据权利要求4所述的基于深度学习的视觉里程计特征点提取方法,其特征在于:步骤4中,使用双向最邻近方法对描述子进行匹配;
匹配公式为:
k
其中,di为描述子,对每个描述子进行归一化处理得到 为对第i幅图像的第k个描述子 进行归一化得到的结果,N为自然数;
使用欧氏距离dm,n作为描述子相似程度的度量范数,
dm,n为两个描述子在欧氏距离上的相似度表示,距离dm,n限定在阈值δ内,其值越小,表示两个描述子的匹配程度越高;
在给定前一帧图像的某个特征点 时,求出下一帧图像的特征点 使得描述子的距离最小化,即为一个匹配点对(m,n*),这样的所有匹配点对构成了两帧图像的特征点匹配集合Am→n,称之为m→n方向的最邻近匹配;为了提升匹配的准确率,按照公式7计算n→m方向的最邻近匹配,得到匹配集合Bn→m,距离阈值δ用于过滤误匹配的情况;则最终的匹配集合为为Am→n和Bn→m的交集,特征点双向最邻近匹配集合为Am→n∩Bn→m;
。
8.一种视觉里程计,其特征在于:利用权利要求1-7任意一项所述的基于深度学习的视觉里程计特征点提取方法,针对单目相机的运动进行建模,模型的输入信息为图像的2D像素坐标;对于两帧图像的匹配 通过式9,建立对极约束方程并使用随机一致性方法求出基础矩阵F,对于特征点落在平面的情况则求解单应矩阵H,使用矩阵分解方法从F和H中恢复位姿Ti,i+1;
其中,i为第i幅图像,m表示第i幅图像 的特征点的序数;
将首次平移的尺度初始化为真实值大小;通过三角化测量匹配的特征点在相机坐标系的三维空间坐标分别为 与 对于任意一个特征点,位姿变换关系理论上满足:
其中Ti,i+1为第i帧到第i+1帧的位姿变换;
构造目标函数为Ti,i+1的最小化重投影误差方程:
分别使用基础矩阵F和单应矩阵H两种方法求解相机位姿变化,选择最小化重投影误差中的较小者,作为最优的相机位姿参数和特征点对应的三维空间坐标。