再读SIFT理论及源码

SIFT特征点检测与描述深入解析
本文详细探讨了SIFT(尺度不变特征变换)的理论与源码实现,包括高斯金字塔、差分金字塔的构建,关键点检测、亚像素定位、主方向计算、旋转不变性以及特征描述子的生成。SIFT特征因其尺度不变性和旋转不变性在图像处理领域广泛应用。

SIFT特征点检测及描述

引言

SIFT特征点,尺度不变的特征变换。其具有尺度不变性(高斯差分金字塔),旋转不变性(主方向),部分放射不变性(在统计梯度方向直方图时对直方图进行了高斯平滑)。

SIFT特征分为两部分,第一个是要检测一幅图像中关键点的位置,第二个是要生成一个描述子来表示这个点位置。

名词解释

1.     高斯模糊:理论证明高斯核函数是实现尺度不变的唯一线性函数,通过将高斯函数与原图像进行卷积,根据卷积参数的大小可以得到不同的高斯模糊图像,这些图像尺度不变。

2.     降采样:一幅图像按照最近邻的原则进行收缩至原来的一半。

3.    高斯模板:对图像的每个像素做模糊时,理论上所有的点均可以对该点做贡献,但是在3之外的点可以忽略不计,模板大小即为(m,n)=(6+1, 6+1)。并且模板上的点按照距离该像素远近分配一个权值,体现为:

Lowe建议5*5的模板。

4.     高斯金字塔:金字塔有组和层两个概念,第一组在最底下,每一组最低层都是上一组最高层经过降采样得到的,也就是说当前组的下一组比当前组要一半,这样看起来就像是一座塔了,组数记为o。层是每组之中有的,下一层是由当前层经过高斯模糊得来的,层数记为s,一般s=3~5。

5.    差分金字塔:早年的实验证明高斯-拉普拉斯函数的极值点是图像最稳定的特征点,而高斯差分算子(DOG)可以代替拉普拉斯算子,因此在实际计算中,将高斯金字塔组内每两层相减可以得到一个差分层,从而建立了差分金字塔。

6.     关键点:又称极值点,即上述高斯-拉普拉斯函数极值点,在实际计算中,取差分金字塔上下和当前层周围3*3*3区域内的像素极值点。

亚像素:由于是在离散空间进行采样,因此点的位置不一定在像素级别是精确的,因此需要进行亚像素的插值,精确求解关键点的位置。DOG函数在尺度空间的泰勒展开式为:

求偏导数,令偏导数两边为0:求得极值点为,其中为三方向偏移量,当大于0.5时则在原位置+偏移量组成的新位置上再次插值。在计算机中的实际计算方法为:

7.     梯度:分别计算在x,y方向上的当前像素的下一个像素减去前一个像素,记为dx,dy。则梯度幅值为,梯度方向为。

8.     边缘效应与对比度:对比度较差的关键点不能作为特征,设定了一对比度阈值。DOG算子具有很强的边缘效应,即x与y向的海森矩阵特征值()差距过大。

。其中=,,满足<的关键点才能被留下。

9.     高斯尺度因子:尺度因子Lowe建议初始化为0.6,每一层之间的尺度因子变换关系为:。组间尺度因子变换关系为:这说明不同组相同层的尺度因子是相同的,只有层内才会发生尺度因子变化。

10.  主方向:关键点周围取一个圆形的邻域(半径r由Lowe建议),统计每一个像素的梯度,并且Lowe建议将360°分为8个方向,每一个范围均为45°,将每个像素对应梯度方向范围内加上梯度幅值,最后幅值最大的直方图柱称为主方向。

11.  主方向梯度直方图的高斯平滑:由于SIFT不具备仿射不变性,因此在特征点移动中会出现由于平移导致的振荡问题(仿射与线性变换),对主方向进行平滑,在计算中为:。

12.  旋转不变性:将像素点的坐标值按照主方向进行旋转,,这样主方向与坐标轴相重合,这样对图像的旋转既可以转换为对主方向的旋转,从而转换为对坐标轴的旋转,因此具有旋转不变性。

13.  特征点描述子:找到了关键点后对其进行描述,Lowe建议在特征点邻域内选择4*4的像素区域,在每个区域内选择8个方向。对每个采样点进行亚像素的双线性插值来求解梯度值。(因为此时是一个像素内,则梯度无法直接通过两个方向的像素来求解,只能通过插值求解,这需要跟求主方向的梯度区别开)(问题1:为什么会出现在像素内的点? 因为在经过关键点亚像素插值后,即产生了亚像素位置)(问题2:为什么求解主方向不用亚像素位置?因为求主方向时所取邻域较大,并且主方向反映宏观上的特征点坐标取向,因此利用像素级的点求解更好)。求解了8个方向的梯度后,可以形成一个4*4*8=128的特征向量,称为特征描述子。

14.  特征匹配:根据特征描述子的相近程度来匹配。

SIFT特征点检测及描述步骤

1) 对图像进行降采样,得到初期的o组高斯金字塔。(有时候会有-1组的出现,此时需要先将图像扩大一倍)

2) 对组内的一张图片进行高斯模糊,在每组内建立多层的图像,从而建立了o组多层的高斯金字塔

3) 对每一组内的相邻层进行差分求解,建立差分金字塔,每组金字塔的层数为s,并且要多取两层,为后来检测极值点准备。差分金字塔o组s层,(s+2)张图片。

4) 检测极值点,遍历差分金字塔每组每层的像素,找到像素3*3*3邻域内的极值点,作为关键点初始位置

5) 亚像素插值求解关键点精确位置。

6) 对关键点进行去除,包括对比度与边缘效应。

7) 差分金字塔各层尺度变换,尺度因子的关系。

8) 求解关键点的主方向,利用周围邻域的梯度来确定关键点的主方向。

9) 对主方向直方图进行高斯平滑,来提高稳定性。

10)  先将关键点邻域按其主方向进行旋转,并以主方向为基准建立坐标轴,确定邻域各像素的坐标位置。

11)  选取关键点周围4*4邻域范围,分别计算采样点对各子域梯度的影响,根据亚像素级双线性插值方法统计每个子阈8个方向的梯度,从而建立了4*4*8的特征向量,该向量即为描述子。

12)  归一化描述子。

13)  利用建立好的描述子进行特征匹配。

结合SIFT源代码的补充

源代码以opencv作为依赖库函数,以自带的结构体IplImage * 表示图像,三级指针IpIImage *** 表示金字塔,CvSeq *表示图像的特征序列,double *表示梯度直方图数组。

1) 源码提到了塔的-1组,并且将图的比例扩大一倍。

2) 在具体计算时,如梯度等均用差分代替偏导,或者中心差分代替二阶导数。

3) 在产生新特征点时,对序列数组要预先分配空间,而且分为产生新特征calloc,特征点加入序列malloc,特征点亚像素位置new。

4) 在高斯模糊搜索区域时,循环起点在高斯模板长度处开始(一般为5),保证了模板包含在整个图片像素内部。

5) 在循环时要考虑点是否在像素平面内,还有一个重要的考虑是第n个点与第0个点的左右值问题,程序中是循环处理的,及n-1,0,1也看做是相邻点。

总结

SIFT特征点是Lowe在1999年所提出的,至今仍有很好的应用,它利用差分金字塔近似高斯-拉普拉斯函数求解极值点保证了特征点的尺度不变性,利用特征点邻域统计梯度直方图确定主方向,并将坐标轴旋转至主方向保证了旋转不变性,利用对特征梯度直方图的平滑近似部分仿射不变性。从而使特征点在运动过程中较为稳定,为利用SIFT特征点进行帧间的运动估计提供了基础。

未使用包,python源码实现。 SIFT 尺度不变特征转换(Scale-invariant feature transform或SIFT)是一种电脑视觉的算法用来侦测与描述影像中的局部性特征,它在空间尺度中寻找极值点,并提取出其位置、尺度、旋转不变量,此算法由 David Lowe在1999年所发表,2004年完善总结。 其应用范围包含物体辨识、机器人地图感知与导航、影像缝合、3D模型建立、手势辨识、影像追踪和动作比对。 此算法有其专利,专利拥有者为英属哥伦比亚大学。 局部影像特征的描述与侦测可以帮助辨识物体,SIFT 特征是基于物体上的一些局部外观的兴趣点而与影像的大小和旋转无关。对于光线、噪声、些微视角改变的容忍度也相当高。基于这些特性,它们是高度显著而且相对容易撷取,在母数庞大的特征数据库中,很容易辨识物体而且鲜有误认。使用 SIFT特征描述对于部分物体遮蔽的侦测率也相当高,甚至只需要3个以上的SIFT物体特征就足以计算出位置与方位。在现今的电脑硬件速度下和小型的特征数据库条件下,辨识速度可接近即时运算。SIFT特征的信息量大,适合在海量数据库中快速准确匹配。 SIFT算法的特点有: 1. SIFT特征是图像的局部特征,其对旋转、尺度缩放、亮度变化保持不变性,对视角变化、仿射变换、噪声也保持一定程度的稳定性; 2. 独特性(Distinctiveness)好,信息量丰富,适用于在海量特征数据库中进行快速、准确的匹配; 3. 多量性,即使少数的几个物体也可以产生大量的SIFT特征向量; 4. 高速性,经优化的SIFT匹配算法甚至可以达到实时的要求; 5. 可扩展性,可以很方便的与其他形式的特征向量进行联合。 SIFT算法可以解决的问题: 目标的自身状态、场景所处的环境和成像器材的成像特性等因素影响图像配准/目标识别跟踪的性能。而SIFT算法在一定程度上可解决: 1. 目标的旋转、缩放、平移(RST) 2. 图像仿射/投影变换(视点viewpoint) 3. 光照影响(illumination) 4. 目标遮挡(occlusion) 5. 杂物场景(clutter) 6. 噪声 SIFT算法的实质是在不同的尺度空间上查找关键点(特征点),并计算出关键点的方向。SIFT所查找到的关键点是一些十分突出,不会因光照,仿射变换和噪音等因素而变化的点,如角点、边缘点、暗区的亮点及亮区的暗点等。 Lowe将SIFT算法分解为如下四步: 1. 尺度空间极值检测:搜索所有尺度上的图像位置。通过高斯微分函数来识别潜在的对于尺度和旋转不变的兴趣点。 2. 关键点定位:在每个候选的位置上,通过一个拟合精细的模型来确定位置和尺度。关键点的选择依据于它们的稳定程度。 3. 方向确定:基于图像局部的梯度方向,分配给每个关键点位置一个或多个方向。所有后面的对图像数据的操作都相对于关键点的方向、尺度和位置进行变换,从而提供对于这些变换的不变性。 4. 关键点描述:在每个关键点周围的邻域内,在选定的尺度上测量图像局部的梯度。这些梯度被变换成一种表示,这种表示允许比较大的局部形状的变形和光照变化。 本文沿着Lowe的步骤,参考Rob Hess及Andrea Vedaldi源码,详解SIFT算法的实现过程。 未使用包,python源码实现。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值