人工特征之SIFT和HOG

最新推荐文章于 2025-10-19 18:34:54 发布

原创

最新推荐文章于 2025-10-19 18:34:54 发布 · 6.1k 阅读

24 ·

CC 4.0 BY-SA版权

本文介绍了SIFT（尺度不变特征变换）和HOG（梯度直方图）两种经典的人工特征提取方法。SIFT通过检测尺度空间的极值点，提取出稳定特征点，并生成128维描述符，适用于局部特征匹配。HOG特征则用于全局特征描述，常用于行人检测，通过对图像进行梯度计算、细胞单元构建和直方图绘制，最终得到3780维特征向量。

文章目录

1 SIFT（局部特征）
2 HOG（全局特征）
- 2.1 特征描述子
- 2.2 HOG特征提取步骤

计算机视觉相关的任务都需要先提取特征，然后基于所提取的特征做分类、分割、视觉问答等任务。现在主流的提取特征的方法，都是采用神经网络自动提取对任务起作用的特征，使用人工设计的特征已经成为过去时了。然而，笔者认为，对于每一个算法，找准它的细分领域，还是能够发光发热的，拿人工特征来说，比如当前任务为去除训练集中的相似图片，总不至于去收集一批新的数据，然后人工标注、训练模型等等步骤吧，所以，还是有必要了解一下传统的人工特征的。

1 SIFT（局部特征）

SIFT算法，全称为“Scale Invariant Feature Transform”，它可以用于检测图像中显著的、稳定的特征点，然后基于检测出的像素点所在的局部邻域，生成多维特征，该多维特征代表了对当前特征点的描述。

1.1 特征点检测

二维高斯函数定义如下，其中， $\sigma$ 表示标准差，
在这里插入图片描述
由信号处理相关知识可知，将图像函数与高斯函数卷积等同于将图像的频谱与高斯函数的傅里叶变换相乘，因为高斯函数的傅立叶变换仍然是高斯函数，因此这等同于对源图像进行了低通滤波，即平滑效果，而且， $\sigma$ 值越大，滤波后的图像越模糊。
在这里插入图片描述
其中，对octave的解释可以参见如下一段话，

“In SIFT, an octave is the set of images generated by progressively blurring out an image. Scale level 5 means each octave will consist of 5 progressively blurred images.”

在得到DOG图像后，对于每一个octave的一组图像，查找所有的极值点，以下图为例，该极值点像素值大于局部8领域点和上下两个Scale的像素点，也就是说，定义一个极值点时，需要将当前像素点同9*2+8=26个像素值做比较。
在这里插入图片描述
在对所有的octave都执行上面的操作后，会得到很多的特征点，值得一提的是，这里空间尺寸较小的octave的特征点，需要映射到原图像上的对应坐标。