Learning to assign orientation to feature points学习笔记
Learning to assign orientation to feature points
Abstract
我们展示了如何训练一个卷积神经网络来指定一个典型的方向给一个图像块中心的特征点。我们的方法在现有技术的基础上改进了特征点匹配,可以与任何现有的旋转敏感描述子结合使用。为了避免繁琐且几乎不可能完成的寻找目标方位的任务,我们建议使用孪生网络,在训练过程中隐式地找到最佳方向。我们还提出了一种新的激活函数结合了流行的ReLU,maxout和PReLU激活函数。这种新颖的激活方式对我们的任务更有效。我们用四个现有的数据集(包括两个非平面数据集)以及我们自己的数据集广泛地验证了我们的方法的有效性。我们证明,我们的性能优于最先进的技术,而不需要对每个数据集进行再培训。
1.Introduction
特征点是计算机视觉中一个重要且普遍存在的工具,已经对检测器和描述符进行了广泛的研究,包括使用统计方法。然而,规范方向的分配(这是一个重要的共同步骤)几乎没有受到任何个人的关注,这可能是因为SIFT的主导方向被认为是好的结果。
然而,这并不一定是真的。在复杂场景中,特征点位于非平面表面上,其外观会因视点和照明的变化而发生显著变化。这很容易在如图1所示的方向估计中产生误差。此外,旋转不变描述符也不是一个确定的解决方案,因为这些描述符丢弃了旋转敏感信息,当理想方向是给予。因此,正如我们将在实验中展示的,使用旋转敏感描述符和更好的定位可以获得更高的匹配性能。
在本文中,我们展示如何通过训练回归器来估计更好的匹配方向来解决这个问题,并提高现有旋转敏感描述子的性能。我们训练一个卷积神经网络来预测一个方向,给定一个贴片围绕一个特征点。为了避免寻找要学习的典型定向的困难任务,我们将学习的方向视为一个内隐变量,通过训练一个类似于描述符学习方法的孪生网络。此外,为了使我们的方法能够与任何现有的旋转敏感描述符(如SIFT、SURF和基于学习的VGG一起工作,我们在学习时将描述符组件视为一个黑匣子。
我们还提出了一种新的基于广义铰链超平面(GHH)的神经元激活函数,它在我们的方法中起着关键作用。我们将证明它推广了目前流行的ReLU和maxout激活函数,以及最近的PReLU激活函数,为我们的任务提供了更好的性能。
为了评估所提出方法中具有方向的描述符的性能,我们使用了平面或远距离对象和三维对象的数据集。此外,我们还创建了自己的数据集,用复杂的摄影机移动(如平面内旋转和视点更改)来进一步丰富数据集。我们证明所提出的方法对所有的数据集都有显著的改进,而不需要对每个数据集进行重新训练。
在本文的剩余部分,我们首先讨论了相关的工作,介绍了我们的学习框架,详细介绍了我们的方法以及提出的激活函数。然后,我们展示了我们的实验结果,证明了我们的定向作业的有效性。我们还研究了所提出的激活和数据集的影响,并给出了几个应用结果。
2.Related Work
如文献所述,良好的方向估计的重要性被忽视,被认为是特征点检测器或描述子必须执行的一个不太重要的步骤。为特征点指定方向的常用解决方案是使用SIFT的主方向。然而,正如所指出的那样,基于主导方向的方法并不能很好地适用于任意位置,尽管它对描述符的性能有着至关重要的影响。然而,在这里我们提供了一个简单的回顾现有的方法与定向分配和我们的方法。
**特征点探测器的方位分配。**在SIFT中,梯度方向的直方图用于确定主导方向。它仍然是最流行的方法,并且已经扩展到3D。SURF利用采样点的Haar小波响应来提取主方向。MOPs只是在平滑之后在一个补丁的中心使用梯度来增强对噪声的鲁棒性。ORB使用图像矩来计算质心和主方向。HIP考虑了围绕特征点的圆上的强度差来估计方向。虽然这是相当快,它也非常敏感的噪音。
总之,尽管存在差异,这些方法的主要思想仍然相同:以各自的方式找到可靠的主导方向。因此,当计算时间限制不太严格时,使用SIFT方向仍然是第一个尝试的解决方案。
**旋转不变描述符。**由于现有的方向分配方法并不总是足够鲁棒以保证良好的匹配性能,因此人们对固有的旋转不变性描述子产生了兴趣。MROGH使用具有旋转不变梯度的局部强度顺序池,LIOP以类似的方式构造描述符,但是使用不同的策略来聚集梯度信息。BRISK和FREAK也声称旋转不变性,但它们仍然依赖于描述符提取过程中包含的方向估计。
除了结构上具有旋转不变性的描述符外,还使用同心环来生成旋转图像的方向直方图库,以及用于旋转不变匹配的特定距离函数。sGLOH还提出使用旋转不变距离函数,该函数计算所有可能的旋转组合的距离并取最小值。作者进一步扩展了他们的方法,提出了一种考虑场景主方向的基于直方图的特征描述子的通用方法。
虽然这些方法可能比原始的SIFT描述符更好,但是SIFT描述符与我们基于学习的方向估计相结合的性能优于它们,正如我们将在实验中展示的那样。这可能是因为在计算这些描述符时会丢弃旋转敏感信息。此外,仅适用于整个场景是感兴趣的对象时,并且是不切实际的,因为主方向是通过计算所有可能的特征匹配对来获得的,以保持配置的最佳匹配。
**基于学习的方法。**基于学习的方法已经应用于特征点匹配,但仅适用于一般特征点的定向分配问题。例如,学会了预测面片的姿势,但对每个面片使用一个回归因子,这对于一般特征来说不是一个可行的解决方案积分。使用孪生网络就像我们做的那样,直接比较图像块,或者学会计算描述符。VGG也可以分别通过贪婪的描述和优化来学习。
这些基于学习的描述符的一个警告是,它们仍然依赖于传统手工制作的局部特征检测器的方向估计。此外,他们通常使用Brown数据集进行学习,并使用运动结构(SfM)技术中的地面真实方向提取斑块。在实际应用中,这种基本的真实方位分配并不是人们所期望的,并且当在其他具有不准确定向分配的数据上进行测试时,可能会导致性能下降。这些方法也将受益于测试时间上更好的定向分配,正如我们在VGG实验中所展示的那样。