再读SIFT理论及源码

SIFT特征点检测与描述深入解析

最新推荐文章于 2024-07-05 20:27:20 发布

原创最新推荐文章于 2024-07-05 20:27:20 发布 · 363 阅读

1 ·

CC 4.0 BY-SA版权

个人专栏收录该内容

2 篇文章

订阅专栏

本文详细探讨了SIFT（尺度不变特征变换）的理论与源码实现，包括高斯金字塔、差分金字塔的构建，关键点检测、亚像素定位、主方向计算、旋转不变性以及特征描述子的生成。SIFT特征因其尺度不变性和旋转不变性在图像处理领域广泛应用。

SIFT特征点检测及描述

引言

SIFT特征点，尺度不变的特征变换。其具有尺度不变性(高斯差分金字塔)，旋转不变性(主方向)，部分放射不变性(在统计梯度方向直方图时对直方图进行了高斯平滑)。

SIFT特征分为两部分，第一个是要检测一幅图像中关键点的位置，第二个是要生成一个描述子来表示这个点位置。

名词解释

1. 高斯模糊：理论证明高斯核函数是实现尺度不变的唯一线性函数，通过将高斯函数与原图像进行卷积，根据卷积参数的大小可以得到不同的高斯模糊图像，这些图像尺度不变。

2. 降采样：一幅图像按照最近邻的原则进行收缩至原来的一半。

3. 高斯模板：对图像的每个像素做模糊时，理论上所有的点均可以对该点做贡献，但是在3之外的点可以忽略不计，模板大小即为(m,n)=(6+1, 6+1)。并且模板上的点按照距离该像素远近分配一个权值，体现为：

Lowe建议5*5的模板。

4. 高斯金字塔：金字塔有组和层两个概念，第一组在最底下，每一组最低层都是上一组最高层经过降采样得到的，也就是说当前组的下一组比当前组要一半，这样看起来就像是一座塔了，组数记为o。层是每组之中有的，下一层是由当前层经过高斯模糊得来的，层数记为s，一般s=3~5。

5. 差分金字塔：早年的实验证明高斯-拉普拉斯函数的极值点是图像最稳定的特征点，而高斯差分算子(DOG)可以代替拉普拉斯算子，因此在实际计算中，将高斯金字塔组内每两层相减可以得到一个差分层，从而建立了差分金字塔。

6. 关键点：又称极值点，即上述高斯-拉普拉斯函数极值点，在实际计算中，取差分金字塔上下和当前层周围3*3*3区域内的像素极值点。

亚像素：由于是在离散空间进行采样，因此点的位置不一定在像素级别是精确的，因此需要进行亚像素的插值，精确求解关键点的位置。DOG函数在尺度空间的泰勒展开式为：

求偏导数，令偏导数两边为0：求得极值点为，其中为三方向偏移量，当大于0.5时则在原位置+偏移量组成的新位置上再次插值。在计算机中的实际计算方法为：

7. 梯度：分别计算在x，y方向上的当前像素的下一个像素减去前一个像素，记为dx，dy。则梯度幅值为，梯度方向为。

8. 边缘效应与对比度：对比度较差的关键点不能作为特征，设定了一对比度阈值。DOG算子具有很强的边缘效应，即x与y向的海森矩阵特征值()差距过大。

。其中=，,满足<的关键点才能被留下。

9. 高斯尺度因子：尺度因子Lowe建议初始化为0.6，每一层之间的尺度因子变换关系为：。组间尺度因子变换关系为：这说明不同组相同层的尺度因子是相同的，只有层内才会发生尺度因子变化。

10. 主方向：关键点周围取一个圆形的邻域(半径r由Lowe建议)，统计每一个像素的梯度，并且Lowe建议将360°分为8个方向，每一个范围均为45°，将每个像素对应梯度方向范围内加上梯度幅值，最后幅值最大的直方图柱称为主方向。

11. 主方向梯度直方图的高斯平滑：由于SIFT不具备仿射不变性，因此在特征点移动中会出现由于平移导致的振荡问题(仿射与线性变换)，对主方向进行平滑，在计算中为：。

12. 旋转不变性：将像素点的坐标值按照主方向进行旋转，，这样主方向与坐标轴相重合，这样对图像的旋转既可以转换为对主方向的旋转，从而转换为对坐标轴的旋转，因此具有旋转不变性。

13. 特征点描述子：找到了关键点后对其进行描述，Lowe建议在特征点邻域内选择4*4的像素区域，在每个区域内选择8个方向。对每个采样点进行亚像素的双线性插值来求解梯度值。(因为此时是一个像素内，则梯度无法直接通过两个方向的像素来求解，只能通过插值求解，这需要跟求主方向的梯度区别开)(问题1：为什么会出现在像素内的点？因为在经过关键点亚像素插值后，即产生了亚像素位置)(问题2：为什么求解主方向不用亚像素位置？因为求主方向时所取邻域较大，并且主方向反映宏观上的特征点坐标取向，因此利用像素级的点求解更好)。求解了8个方向的梯度后，可以形成一个4*4*8=128的特征向量，称为特征描述子。

14. 特征匹配：根据特征描述子的相近程度来匹配。

SIFT特征点检测及描述步骤

1）对图像进行降采样，得到初期的o组高斯金字塔。(有时候会有-1组的出现，此时需要先将图像扩大一倍)

2）对组内的一张图片进行高斯模糊，在每组内建立多层的图像，从而建立了o组多层的高斯金字塔

3）对每一组内的相邻层进行差分求解，建立差分金字塔，每组金字塔的层数为s，并且要多取两层，为后来检测极值点准备。差分金字塔o组s层，(s+2)张图片。

4）检测极值点，遍历差分金字塔每组每层的像素，找到像素3*3*3邻域内的极值点，作为关键点初始位置

5）亚像素插值求解关键点精确位置。

6）对关键点进行去除，包括对比度与边缘效应。

7）差分金字塔各层尺度变换，尺度因子的关系。

8）求解关键点的主方向，利用周围邻域的梯度来确定关键点的主方向。

9）对主方向直方图进行高斯平滑，来提高稳定性。

10) 先将关键点邻域按其主方向进行旋转，并以主方向为基准建立坐标轴，确定邻域各像素的坐标位置。

11) 选取关键点周围4*4邻域范围，分别计算采样点对各子域梯度的影响，根据亚像素级双线性插值方法统计每个子阈8个方向的梯度，从而建立了4*4*8的特征向量，该向量即为描述子。

12) 归一化描述子。

13) 利用建立好的描述子进行特征匹配。

结合SIFT源代码的补充

源代码以opencv作为依赖库函数，以自带的结构体IplImage * 表示图像，三级指针IpIImage *** 表示金字塔，CvSeq *表示图像的特征序列，double *表示梯度直方图数组。

1）源码提到了塔的-1组，并且将图的比例扩大一倍。

2）在具体计算时，如梯度等均用差分代替偏导，或者中心差分代替二阶导数。

3）在产生新特征点时，对序列数组要预先分配空间，而且分为产生新特征calloc，特征点加入序列malloc，特征点亚像素位置new。

4）在高斯模糊搜索区域时，循环起点在高斯模板长度处开始(一般为5)，保证了模板包含在整个图片像素内部。

5）在循环时要考虑点是否在像素平面内，还有一个重要的考虑是第n个点与第0个点的左右值问题，程序中是循环处理的，及n-1,0,1也看做是相邻点。

总结

SIFT特征点是Lowe在1999年所提出的，至今仍有很好的应用，它利用差分金字塔近似高斯-拉普拉斯函数求解极值点保证了特征点的尺度不变性，利用特征点邻域统计梯度直方图确定主方向，并将坐标轴旋转至主方向保证了旋转不变性，利用对特征梯度直方图的平滑近似部分仿射不变性。从而使特征点在运动过程中较为稳定，为利用SIFT特征点进行帧间的运动估计提供了基础。