1.一种基于自注意力深度神经网络的图像匹配方法,其特征在于:包括以下步骤:
步骤S1:提供一组图像对(L,L')进行数据集处理,分别提取图像L,L'的特征点集并生成4维数据;
步骤S2:特征增强:使用一个卷积核大小为1×1的卷积层,将步骤S1处理后的4维数据映射为一个128维的特征向量,即C(1×N×4)→C(1×N×128),用以减少网络特征学习带来的信息损失;其中,N代表一张图片提取的特征点个数;对于网络学习,首先使用PointCN模块对增强后的特征向量C(1×N×128)进行特征提取,得到初始全局特征;然后运用可微分池化层进行下采样将N个点聚类成M个类以获取局部特征;引入顺序意识过滤模块在特征的空间域进行处理经过顺序意识过滤模块,特征对的空间对应关系会变成无序,需要再经过可微分不池化层进行上采样得到有序的全局特征信息;
步骤S3:将步骤S2中经过PointCN模块提取的初始全局特征传入自注意力层进行操作,得到加强后特征信息;然后与步骤S2得到的更好的全局信息进行拼接处理,再经过一次PointCN模块得到初步预测结果;通过学习一个矩阵E即回归本质矩阵,去获得一个概率;这个概率作为特征点对的权重,去做后续的运算即进行本质矩阵估计;对于自注意力层操作,使用Attention机制得到β矩阵,β矩阵再与经过权重分配处理后的h(xi),使用点积操作得到oi,再进行yi=γoi+xi操作得到加强后特征信息yi,再与经过步骤S2得到的更好的全局信息进行拼接处理,公式如下:out=cat[yi,x′i],
其中xi表示第i个特征向量,h(xi)表示权重分配后新的特征向量,其中,yi表示最终的学习的权重矩阵yi∈RC×C,把它拼接到经过特征全局和局部信息处理后的特征向量;oi表示第i个注意力层输出的结果,γ初始化为0,γ是一个可学习的标量;其中out为拼接后的特征向量,x′i表示经过步骤S2得到的更好的全局特征向量,yi表示加强后特征信息,cat表示将它们在通道维度进行拼接;最后将out经过PointCN模块得到特征点对的概率表示,设定一个阈值对所得到的每一个匹配点对进行判断,如果大于这个阈值则判定为正确匹配对,否则为错误匹配对,以此去得到正确的匹配对;
步骤S4:在测试阶段,利用SAGN网络即自注意力网络,将步骤S2中传入的初始全局信息进行处理,得到加强后的特征点对信息,并且使用二分类损失函数和E矩阵损失函数进行求和操作,作为网络总体的损失函数去指导网络训练;即 其中lcls(·,·)是二分类loss损失函数,用于分类任务,less(·,·)表示E矩阵loss是几何loss损失函数,α是一个权重用来平衡二分类损失函数lcls和E矩阵损失函数less;E是ground truth本质矩阵;在整个网络的训练中,总体的损失函数指导网络的学习,不断更新对匹配对的预测概率,通过与特定阈值比较大小,最终输出网络预测特征点对是否为正确匹配的结果。
2.根据权利要求1所述的一种自注意力深度神经网络的图像匹配方法,其特征在于:所述步骤S1的具体内容为:提供一组图像对(L,L'),使用SIFT检测子分别从每个图像中提取特征点kpi,kp′i,则图像L的信息提取的特征点集为KP={kpi}i∈N;从图像L'获得特征点集KP'={kp'i}i∈N;基于特征点的描述子生成两个图片之间的初始的匹配,每个对应关系(kpi,kp′i)能生成4维数据:C=[c1;c2;...;cn]∈RN*4,ci=(xi1,yi1,xi2,yi2)
C表示图像对的匹配对组即输入数据,ci表示匹配对,(xi1,y1i),(xi2,y2i)分别表示匹配对中两个特征点的坐标。
3.根据权利要求1所述的一种自注意力深度神经网络的图像匹配方法,其特征在于:步骤S3中所述对于回归本质矩阵计算公式如下:w=tanh(ReLU(z))
其中,z是用于分类的logit值, 代表一个permutation-equivariant神经网络,表示网络的参数,g(,)表示八点算法,w是特征点对的权重,C表示特征点对。
4.根据权利要求1所述的一种自注意力深度神经网络的图像匹配方法,其特征在于:步骤S3中所述,将经过PointCN模块提取的初始的全局特征传入自注意力模块进行操作;首先将传入的初始全局特征进行卷积,由于特征向量经过卷积维度不同,将它们进行矩阵相乘,再经过softmax归一化得到一个Attention Map即β矩阵最后将得到Attention Map与经过步骤S2得到的更好的全局特征向量进行拼接操作得到feature Map;上述过程中β矩阵计算公式如下:sij=f(xi)Tg(xj),f(x)=Wfx,g(x)=wgx
其中f(x),g(x)分别表示经过卷积不同维度的特征向量,βj,i表示在合成第j个区域时模型到达第i个位置的程度,f(xi)表示经过卷积不同维度的第i个特征向量,g(xj)表示经过卷积的不同维度的第j个特征向量,将f(x)的输出转置,并和g(x)的输出相乘,在经过softmax归一化得到一个AttentionMap,公式中Wg∈RC×C,Wf∈RC×C,是两个可学习的权重矩阵;
对于β矩阵,每一行长度为N的向量代表了一种Attention的方式,分别对应各自的特征点对,输出的attention layer是O=(o1,o2,o3,...,oj,...,oN)∈RC×N计算公式如下所示:h(xi)=Whxi
其中O代表每个特征的attention表示;在上述公式中,Wh∈RC×C是可学习的权重矩阵;
将这N种Attention的方式应用到经过步骤S2得到的更好的全局特征向量上,即每一个特征点对都与整个Feature Map相关,相关性来自于β矩阵,得到N个新的特征点对的Attention值作为输出计作O,则最终输出为:yi=γoi+xi
其中,yi表示最终的学习的权重矩阵yi∈RC×C,把它拼接到经过特征全局和局部信息处理后的特征向量,oi表示第i个注意力层输出的结果,γ初始化为0,γ是一个可学习的标量,然后逐渐的给non-local分配更多的权重;这样做的原因是因为:一开始学习一些简单的任务,然后再不断地增加复杂的任务;通过以上计算能够得到特征加强后的全局上下文信息。
5.根据权利要求1所述的一种自注意力深度神经网络的图像匹配方法,其特征在于:步骤S4实现过程中二分类损失函数lcls如以下公式所示:其中,yi就表示label,y'i表示预测值,i表示特征点对序号,n表示特征点的数量;
E矩阵损失函数less,如公式所示:
其中p1和p2是一组特征点对,T[i]表示表示第i个元素的向量。