《ASLFeat: Learning Local Features of Accurate Shape and Localization》论文翻译
标题:ASLFeat: 学习精确形状和定位的局部特征
摘要
这项工作的重点在于减轻联合学习局部特征检测器和描述符的两个限制。首先,在密集特征提取过程中,往往忽略了对特征点局部形状(尺度、方向等)的估计能力,而形状感知是获取更强几何不变性的关键。其次,检测关键点的定位精度不足以可靠地恢复摄像机几何图形,成为三维重建等任务的瓶颈。在这篇文章中,我们提出了一个有三种轻量级但有效的修改来减轻上述问题的壮举。首先,利用可变形卷积网络进行密集估计并应用局部变换。其次,我们利用固有特征层次来恢复空间分辨率和低层次细节来精确定位关键点。最后,我们使用峰值测量来关联特征响应和衍生指标检测分数。每一个修改的效果都经过了彻底的研究和在各种实际情况下广泛的评估。我们报道了最新的结果,证明了我们方法的优越性。
1、介绍
设计强大的局部特征是广泛的计算机视觉任务的必要基础。在过去几年中,局部特征检测器和描述符的联合学习越来越受欢迎,在实际应用中取得了令人满意的结果。然而,我们认为有两个限制可能决定了性能的进一步提高:1)缺乏获得更强几何不变性的特征点的形状感知,以及2)缺乏鲁棒地求解相机几何的关键点定位精度。
传统上,局部形状是通过手工的比例/旋转估计[17,29]或仿射形状适应[20]来参数化的,而最近,数据驱动的方法[23,22,39]已经出现,它们建立单独的网络来回归形状参数,然后在特征描述之前变换面片输入。由于使用关键点检测器的联合学习越来越普遍[6,25,27,7,4],最近的研究重点已经转移到从图像输入中密集提取特征的框架上,而没有给出预定义的关键点,因此先前的逐块形状估计变得不适用。作为一种替代方案, LF-Net[25]通过空间变换网络[12]提取密集特征并变换中间特征图,然而需要多次前向传递,并且只有形状参数的稀疏预测实际上是可行的。在这种观点下,仍然缺乏能够在密集预测框架中实现有效的局部形状估计的解决方案。
此外,在解决几何敏感问题时,学习到的关键点的定位精度仍然受到关注。例如,LF-Net [25]和D2-Net [7]经验上在两视图匹配中产生低精度,或者在从运动到结构(SfM)任务中引入大的重投影误差,这实质上可以归因于空间精度的缺乏,因为检测是从低分辨率特征图中导出的(例如,原始尺寸的1/4倍)。为了恢复空间分辨率,SuperPoint[6]学会在人工点的像素监督下对特征图进行上采样,而R2D2 [27]则使用扩张的卷积来保持空间分辨率,但要权衡过多的图形处理器计算和内存使用。此外,从最深层的检测是否能够识别低层结构(拐角、边缘等)关键点通常位于何处是值得怀疑的。尽管在密集预测任务[28,10,16]中进行了广泛讨论,但在我们的上下文中,关键点定位精度和关键点检测的低水平性质都没有得到足够的重视。
为了减轻上述限制,我们提出了一个壮举,有三个轻量但有效的修改。首先,我们在密集预测框架中使用可变形卷积网络(DCN),它不仅允许局部变换的像素级估计,还允许通过叠加多个离散余弦变换进行渐进形状建模。其次,我们利用固有的特征层次,提出了一种多级检测机制,该机制不仅在没有额外学习权重的情况下恢复空间分辨率,而且恢复低层细节以进行精确的关键点定位。最后,我们将我们的方法建立在一个改进的D2-Net [7]的基础上,该网络是从零开始训练的,并且进一步提出了一个峰值测量,用于更有选择性的关键点检测。
尽管我们对上述修改的关键见解很熟悉,但我们在特定的环境中强调了它们的重要性,以一种不平凡的方式充分优化了实现,并通过比较不同的设计选择彻底研究了效果。总而言之,我们的目标是为两个关键问题提供答案:1)局部描述符(几何约束[23,22,39]或自由形式建模[5,45])需要什么变形参数化,2)什么特征融合对关键点检测器有效(多尺度输入[27,7],网络内多尺度推理[25],或多级融合[28])。最后,我们在各种实际场景中广泛评估了我们的方法,包括图像匹配[1,2],3D重建[32]和视觉定位[30]。我们展示了对主干架构D2-Net的重大改进,并报告了流行基准测试的最新结果。
2、相关工作
手工制作的局部特征已经在[1,32]中进行了广泛的评估,这里我们主要关注学习方法。
**局部形状估计。**大多数现有的描述符学习方法[19,18,21,37,36,40]没有明确地对局部形状建模,而是依靠几何数据增强(缩放/旋转扰动)或手工制作的形状估计(缩放/旋转估计[17,29])来获得几何不变性。相反,OriNet [23]和LIFT [39]提出学习特征点的规范方向,AffNet [22]预测更多仿射参数以提高建模能力,而对数极坐标表示[8]用于处理特定的比例变化。尽管结果令人满意,但这些方法仅限于将图像块作为输入,并且引入了相当大的计算量,因为构建了两个独立的网络来分别预测块形状和块描述。作为一种替代方案,LF-Net[25]将图像作为输入,并对中间特征执行STN [12],同时需要多个前向通道来变换单个“特征块”,因此实际上仅适用于对稀疏位置的预测。
同时,局部形状的建模已被证明在图像识别任务中至关重要,这激发了诸如用于灵活尺寸膨胀的比例自适应卷积(SAC)的工作[42]和用于可调网格采样位置的可变形卷积网络(DCN)的工作[5,45]。在本文中,我们在我们的上下文中采用了类似的思想,并且建议装备DCN用于密集局部变换预测,其中的推断只需要单个向前传递,因此是高效的。
联合局部特征学习。 特征检测器和描述符的联合学习受到越来越多的关注,其中构建了一个统一的网络来共享两个任务的大部分计算以进行快速推理。就描述符学习而言,排名损失[25,7,6,4,27]主要用作事实上的标准。然而,由于难以获得无偏见的真实数据,对于关键点检测器学习的有效损失设计,尚未达成普遍共识。例如,LF-Net [25]扭曲检测图,并使两个视图中选定像素的差异最小化,而SuperPoint[6]运行自我监督范例,对合成数据进行引导训练,对真实数据进行多轮调整。最近,R2D2 [27]结合描述符的可靠性预测来实施网格方式的峰值,而UnsuperPoint[4]和Key.Net[14]学习网格方式的偏移来定位关键点。
相比之下,D2_net[7]避免了为关键点检测器学习额外的权重,而是手工创建一个选择规则,从用于提取特征描述符的相同特征映射中导出关键点。这种设计本质上耦合了特征检测器和描述符的能力,并且在损失公式中产生了没有复杂启发式的干净框架。然而,D2_Net缺乏关键点定位的准确性是一个已知的问题,因为关键点是从低分辨率特征图中导出的。在本文中,我们将我们的方法建立在D2_net的基础上,并通过一个轻量级的修改来减轻上述限制,该修改廉价地恢复了空间分辨率和低层细节。
3、研究方法
3.1、先验知识
这项工作的主干架构是建立在(1)预测和应用密集空间变换的可变形卷积网络(DCN) 和(2)D2_Net [7]联合学习关键点检测器和描述符。
**可变形卷积网络(DCN)**的目标是学习动态接收场,以适应模拟几何变化的能力。形式上,给定在输入特征映射x上采样值的规则网格R,每个空间位置p的标准卷积的输出特征y可以写成:
DCN通过额外学习两个采样偏移[5]
和特征振幅[45]
,其中
,并将公式1改写成以下形式:
由于偏移△pn通常为小数,公式2是通过双线性插值实现的,而特征幅度△mn被限制为(0,1)。在训练期间,按照[45]中的设置,△pn和△mn的初始值分别设置为0和0.5。
D2-Net提出了一种描述和检测策略来联合提取特征描述和检测。在最后的特征映射
上,D2_net应用通道方向的L2归一化来获得密集的特征描述符,而特征检测是从1)局部分数和2)通道方向的分数得到的。具体来说,对于
中的每个位置(i,j),本地分数通过以下方式获得:
其中,N(i,j)是(i,j)周围的相邻像素,例如,由3 × 3核定义的9个相邻像素。接下来,通过以下方式获得通道级分数:
最终检测分数组合如下:
检测分数随后将用作损失公式中的加权项(Sec. 3.4),并允许在测试过程中对关键点进行 top-K选择。
3.2、几何约束下的DCN
原始的自由形式DCN预测高自由度的局部变换,例如,3 × 3核的9 × 2偏移。一方面,它能够模拟复杂的变形,如非平面性,而另一方面,它有过度参数化局部形状的风险,其中更简单的仿射或透视变换通常被认为是一个很好的近似[20,23,22]。为了找出在我们的环境中需要什么变形,我们通过在DCN实施不同的几何约束来比较三种形状模型,包括1)相似性,2)仿射和3)单应性。表1中总结了所研究的变体的形状属性。
表1 .DCN变量的形状属性,其中自由度表示自由度,k表示卷积的核大小。翻译被省略,因为关键点是固定的。
仿射约束DCN。传统上,局部形状通常通过旋转和比例估计的相似变换来建模[17,29]。在像[23,25]这样的学习框架中,这种转换被分解为:此外,一些工作,如HesAff [20]进一步包括了剪切的估计,这被AffNet [22]视为一个可学习的问题。这里,我们遵循AffNet,并将仿射变换分解为:
后面有时间再写