opencv学习笔记4：sift特征

构建图像金字塔（八度）和高斯金字塔（层）。Construct image pyramid (octave) and Gaussian pyramid (layer)
计算相邻高斯之间的差异，获得DoG 。 calculate diff between adjacent Gaussian, get DoG
构建图像金字塔（八度）和高斯金字塔（层）计算相邻高斯之间的差异，获得DoG 。 Construct image pyramid (octave) and Gaussian pyramid (layer)calculate diff between adjacent Gaussian, get DoG
使用基于黑森矩阵的标准进行更正、删除低对比度点并删除边缘点。orrection, remove low contrast points, and remove edge pointsusing criterion based on Hessian Matrix.

1.构建尺度空间

这是一个初始化操作，尺度空间理论目的是模拟图像数据的多尺度特征。

作用:模拟人眼在不同距离看到的圈像，以便更好地找出图像的本质特征。
(近清晰、远模糊)(越远尺度越大)

高斯卷积核是实现尺度变换的唯一线性核（高斯模糊请看https://blog.youkuaiyun.com/zhang_si_hang/article/details/148469435?fromshare=blogdetail&sharetype=blogdetail&sharerId=148469435&sharerefer=PC&sharesource=zhang_si_hang&sharefrom=from_link——>大标题四“高斯滤波”），于是一副二维图像的尺度空间定义为：

（公式含义：对原始图像 I 进行不同尺度（ σ 不同）的高斯模糊，得到的结果 L 就是该图像在对应尺度下的 “尺度空间表示”。）

其中 G(x,y,σ) 是尺度可变高斯函数

（x，y）是空间坐标，是尺度坐标。σ大小决定图像的平滑程度，σ 越大，图像越模糊（对应 “大尺度”），σ 越小，图像越清晰（对应 “小尺度”）。为了有效的在尺度空间检测到稳定的关键点，提出了高斯差分尺度空间（DOG scale-space）(Difference of Gaussians)。利用不同尺度的高斯差分核与图像卷积生成。

下图所示不同σ下图像尺度空间：

图像金字塔的建立：对于一幅图像I,建立其在不同尺度(scale)的图像，也成为子八度（octave），这是为了scale-invariant，也就是在任何尺度都能够有对应的特征点，第一个子八度的scale为原图大小，后面每个octave为上一个octave降采样的结果，即原图的1/4（长宽分别减半），构成下一个子八度（高一层金字塔）。
下面我们构建图像的高斯金字塔，它采用高斯函数对图像进行模糊以及降采样处理得到的，高斯金字塔构建过程中，为了尽可能多的保留原始图像信息，一般需对原始图像进行扩大两倍采样，即升采样（升采样不是必须的，可以直接使用原尺寸），在扩大的图像的基础之上构建高斯金字塔，然后对该尺寸下图像进行高斯模糊，几幅模糊之后的图像集合构成了一个Octave（子八度），然后对该Octave下选择一幅图像进行下采样，长和宽分别缩短一倍，图像面积变为原来四分之一。这幅图像就是下一个Octave的初始图像，在初始图像的基础上完成属于这个Octave的高斯模糊处理，以此类推完成整个算法所需要的所有八度构建，这样这个高斯金字塔就构建出来了

——子八度(Octave)的构建逻辑:高斯模糊 +下采样计算示例

~~利用LoG(高斯拉普拉斯方法)，即图像的二阶导数，可以在不同的尺度下检测图像的关键点信息，从而确定图像的特征点。但LoG的计算量大，效率低。所以~~我们通过两个相邻高斯尺度空间的图像的相减（相邻两层高斯模糊图像对应像素值直接对应相减得到高斯差分图像），得到DoG(高斯差分)来近似LoG。

为了计算DoG我们构建高斯差分金字塔，该金字塔是在上述的高斯金字塔的基础上构建而成的，建立过程是：在高斯金字塔中每个Octave中相邻两层相减就构成了高斯差分金字塔（相邻两层高斯模糊图像对应像素值直接对应相减得到高斯差分图像）。如下图所示：

左边是高斯金字塔图，每一列就是一个octave，右边是每个octave相邻两层减出来的高斯差分金字塔

2.关键点定位<检测DOG尺度空间极值点>

（1）满足尺度变化的连续性的前提下找极值点

为了寻找尺度空间的极值点，每一个采样点要和它所有的相邻点比较，看其是否比它的图像域和尺度域的相邻点大或者小。如图所示，中间的检测点和它同尺度的8个相邻点和上下相邻尺度对应的9×2个点共26个点比较，以确保在尺度空间和二维图像空间都检测到极值点。一个点如果在DOG尺度空间本层以及上下两层的26个领域中是最大或最小值时，就认为该点是图像在该尺度下的一个特征点（看上面那个狗的图，相邻两层减出来的高斯差分金字塔，值大的）,如图所示。

同一组中的相邻尺度（由于k的取值关系，肯定是上下层）之间进行寻找

s=3的情况

在极值比较的过程中，每一组图像的首末两层是无法进行极值比较的，为了满足尺度变化的连续性（下面有详解），我们在每一组图像的顶层继续用高斯模糊生成了 3 幅图像，高斯金字塔有每组S+3层图像。DOG金字塔每组有S+2层图像.

（2）关键点定位

由于DoG对噪声和边缘比较敏感，因此在上面高斯差分金字塔中检测到的局部极值点需经过进一步的检验才能精确定位为特征点。

阈值处理：找到极值点后防止波动产生错误的极值点，这个点可能会因为波动比附近的点大一点，但就是大一点点，则可以进行阈值处理D(x,y,σ) = L(x, y,kσ) - L(x,y,σ) >T，目的是让极值点比附近的点大的足够多才能认定是极值点，大一点的会小于T，就舍弃，不是极值点。

还要通过二次函数拟合矫正极值点：使用尺度空间的泰勒级数展开来获得极值的准确位置，如果极值点的灰度值小于阈值（一般为0.03或0.04）就会被忽略掉。在 OpenCV 中这种阈值被称为 contrastThreshold。

（3）移除边缘点：

①介绍主曲率：

先回忆曲率：看下图左边图，曲率是描述一个曲线的弯曲程度，曲率圆的半径越小、曲率越大、曲线越弯曲。

主曲率：用于描述曲面在某点处的弯曲程度，以下是详细介绍：在曲面上的任意一点，都可以做出无数个包含该点法线的平面，这些平面与曲面相交会得到一系列的曲线，这些曲线在该点处的曲率称为法曲率。在所有的法曲率中，存在最大值和最小值，这两个值就被称为该点处的主曲率（最大最小曲率的面正好相差90°），通常记为k1和k2。

②主曲率相差最大是边缘点

边缘点的灰度值正常情况是右图的①灰度值跳度很大是边缘点，但由于高斯模糊平滑了，灰度值变成了②

变成三维就是左图红圈是边缘点，用横竖两个面去截这个点可以得到两个主曲率，横着截面由于截出的就是一条直线，曲率为0；竖着截就成了右边的②，则这个曲线变化很急剧，曲率最大，因此我们找到了两个主曲率。而边缘点处的两个主曲率差异很大

③利用海森矩阵找边缘点

海森矩阵：

海森矩阵的特征值和主曲率成正比，则只需要知道海森矩阵的两个特征值，特征值的差就是两个主曲率的差（上面三维图的海森矩阵就是右边这个二维矩阵，两个自变量x、y是平面上的横坐标和纵坐标，函数就是这个灰度值）：

α和β是两个特征值/两个一大一小的主曲率，海森矩阵H和两个特征值的关系如下图

假设α=γβ，γ是系数

(H的迹)²/H的行列式=(特征值之和)²/特征值之积，最终推导出和γ的关系

又得知两个主曲率差距在γ=10时视为边缘点，则代入γ=10推导出该公式>12.1时为边缘点。

3.关键点描述

（1）确定方向的原理

（本图解释梯度，先看本图的下面一个图）

计算关键点周围8×8区域的每个像素的梯度，并把每个4×4区域的像素点的梯度分成8个方向，根据每个像素点的方向和梯度幅值累加到对应方向（蓝色的直方图），可以根据直方图画出8个方向的幅值（右下角的图）

再把四个区域8个方向的幅值累加起来又得到一个直方图，如下图，最终由灰度值最大的方向确定为主方向。

（2）实际的sift确定方向的

Usually we use more grid to grasp more characteristics,e.g., we consider 16 grids, where each corresponding toa vector of 8

通常我们使用更多的网格来掌握更多的特征，例如，我们考虑16个网格，其中每个网格对应8的一个载体；也就是每个网格有8 方向的梯度直方图，每个方向区间就是描述子的一个维度，一共16个网格，16×8维=128维，所以一个sift描述子一共128维

即：每一个关键点要计算16×16区域的网格的梯度来确定该关键点的方向

解释左侧图像：

①圆圈的中心怎么确定的？——就是关键点位置
②圆圈大小由什么决定？——小圆是高斯差分金字塔上更高层的关键点（图像更小但同是16×16范围内的视野更大），更宏观；大圆是高斯差分金字塔上低层的关键点，更细节。
③圆圈内的直线就是关键点的主方向

代码实现：

import cv2
import matplotlib.pyplot as plt

# 1. 读取图像（转为灰度图，SIFT通常在单通道图上操作）
img = cv2.imread("test_image.jpg")  # 替换为你的图像路径
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)  # 转为灰度图

# 2. 初始化SIFT检测器
sift = cv2.SIFT_create()  # OpenCV 4.x写法；3.x可使用cv2.xfeatures2d.SIFT_create()

# 3. 检测关键点并计算描述子
# kp：关键点列表（包含位置、尺度、方向等信息）
# des：描述子矩阵，形状为(n, 128)，n为关键点数量，每个关键点对应128维特征
kp, des = sift.detectAndCompute(gray, None)  # None表示不使用掩码

# 4. 打印特征信息
print(f"检测到的关键点数量：{len(kp)}")
print(f"描述子形状：{des.shape}（每个关键点对应128维特征）")

# 5. 在图像上绘制关键点并显示
# drawKeypoints参数：原图、关键点、输出图、颜色、绘制模式
img_with_kp = cv2.drawKeypoints(
    img, 
    kp, 
    None, 
    color=(0, 255, 0),  # 关键点用绿色标记
    flags=cv2.DRAW_MATCHES_FLAGS_DRAW_RICH_KEYPOINTS  # 显示关键点的尺度和方向
)

# 转换为RGB格式（OpenCV默认BGR，matplotlib需RGB）
img_with_kp_rgb = cv2.cvtColor(img_with_kp, cv2.COLOR_BGR2RGB)

# 显示结果
plt.figure(figsize=(10, 6))
plt.imshow(img_with_kp_rgb)
plt.title("SIFT Key Points")
plt.axis("off")
plt.show()