特征点检测和特征点匹配（ORB）

最新推荐文章于 2025-05-10 16:06:31 发布

原创最新推荐文章于 2025-05-10 16:06:31 发布 · 3.6k 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #opencv

CV 专栏收录该内容

4 篇文章

订阅专栏

本文介绍特征点检测算法，包括Harris角点检测与ORB算法原理，并探讨特征点匹配过程及其实验效果。

前言

本文介绍了特征点检测的一些算法，然后基于OpenCV的ORB，实现了不同尺度和旋转的图像特征点匹配。

本文用到的代码存储在这里。

特征点是什么？

当我们人在对比两张图片时（例如上面的妙蛙种子），我们可以轻而易举地找到两张图片的相似性，尽管我们很难去刻画这种相似性，但是这种观察力却是天生具备的。而对于计算机来说，必须要用它能够理解的方式才能区分图片。

考虑如下三种区域类型：

平坦区域（flat）：图中蓝色框对应的区域
边缘区域（edge）：图中黑色框对应的区域
角点（corner）：图中红色框对应的区域

可以很明显地看到，角点是最具有“唯一性”的特征（另外两种通过平移方框可以找到很多一样的），而且这种唯一性可以让计算机很容易识别出来。所以我们常常把角点认为是图像中优质的特征点（或关键点，Key Point）。

不仅仅是角点，还有许多方式可以让计算机找到独一无二的特征点，寻找特征点的过程叫做特征点检测（Feature Detection）。有时候还需要在多张图当中寻找特征点的对应关系，因此光有特征点的位置信息还不够，还需要知道特征点描述（Feature Description），才能在多张图中找到同一个特征点。

本文介绍传统（相对于深度学习来说）的图像处理中的特征点检测以及匹配的算法，在我最近的项目中主要用于三维配准的工作。

Harris角点检测

主要思想是认为特征点具有较大的局部差异性，以某个像素点为中心，取一个窗口，如果这个点周围的梯度较大，那么认为它是一个特征点。用数学的形式描述如下：

对于图像 $I$ （的某个像素点），其自相关函数定义为
$E(u,v)=\sum\limits_{x,y}{w(x,y)[I(x+u,y+v)-I(x,y)]^2},$
其中 $(u, v)$ 表示某一个小位移， $w (x, y)$ 是一个窗口函数， $I (x, y)$ 表示窗口对应图像位置的像素。 $E (u, v)$ 可以描述像素点位移 $(u, v)$ 的变化幅度。

根据泰勒公式： $I(x+u,y+v)\approx I(x,y)+I_xu+I_yv$ ，代入可得：
$\begin{align} E(u,v) = & \sum\limits_{x,y}{w(x,y)(I_xu+I_yv)^2} \\ = & \sum\limits_{x,y}w(x,y)(I_x^2u^2+2I_xI_yuv+I_y^2v^2) \\ = & \left[\begin{matrix}u&v\end{matrix}\right] M \left[\begin{matrix}u\\v\end{matrix}\right] \end{align}$
其中
$M=\sum\limits_{x,y}w(x,y) \left[\begin{matrix} I_x^2 & I_xI_y \\ I_xI_y & I_y^2 \end{matrix}\right]$
从 $E (u, v)$ 可以看出它是一个关于 $(u, v)$ 的二次型，如果令 $E (u, v) = 1$ ，那么这就是一个椭圆方程（记为椭圆 $E$ ）
$\left[\begin{matrix}u&v\end{matrix}\right] M \left[\begin{matrix}u\\v\end{matrix}\right] =1 ,$
关于椭圆方程和其二次型矩阵的关系有如下定理：

假设椭圆长短轴分别为 $c_1$ , $c_2$ ，其对应二次型矩阵的特征值分别为 $\lambda_1$ , $\lambda_2$ ，那么满足：

$c_1=\frac{1}{\sqrt{\lambda_1}}$ ， $c_2=\frac{1}{\sqrt{\lambda_2}}$
两个特征向量分别指向长短轴的方向

注意这个椭圆 $E (u, v) = 1$ ，我们考虑某个轴 $c_1$ ，椭圆方程限定了变化幅度为定值1，所以如果 $c_1$ 越大，就说明原图像在这个像素点沿着这个轴的变化幅度越小。也就是说， $M$ 的特征值越大，像素点在这个特征向量方向的变化幅度越大。

所以我们可以用特征值去刻画变化幅度，也就是可以用特征值去寻找角点：

当 $\lambda_1$ 和 $\lambda_2$ 都很小时，为平坦区域；
当 $\lambda_1 \gg \lambda_2$ （或 $\lambda_2\gg \lambda_1$ ）时，为边缘区域；
当 $\lambda_1$ 和 $\lambda_2$ 都很大时，为角点；

用等价的表述方式，可以定义
$\begin{align} R &= det(M)-k(trace(M)) \\ &= \lambda_1\lambda_2-k(\lambda_1+\lambda_2) \end{align},$
此时的判别方式为：

若 $∣ R ∣$ 很小，为平坦区域；
若 $R < 0$ ，为边缘区域；
若 $R$ 很大，为角点。

实验效果：

Harris角点检测具有旋转不变性，但不具备尺度不变性。

ORB

大部分特征点检测的算法都不仅仅是计算出图像的特征点就结束了的，计算特征点可以看做是“寻找图像的标志”，而如果要对两张表示同一物体的图像进行匹配，还需要去描述特征点，使得能够在两组特征点中准确找到相匹配的特征点对。这种“描述特征点”的数据称为描述子（descriptor）。

ORB使用oriented FAST算法来检测特征点，rotated BRIEF算法来计算特征点的描述子。

oriented FAST

FAST（Features from Accelerated Segment Test）是一种非常快速的特征点检测算法。计算方法也很简单：

对于图像中的某个像素，如果它和周围的大部分点都不一样，就认为它是一个特征点。具体描述为：

假设这个像素 $P$ 的值为 $p$ ，定义一个合适的阈值 $T$ ，对于另一个像素值 $p_i$ ，如果 $p-p_i|>T$ ，就认为这两个像素点“不同”；
考虑 $P$ 周围的16个像素，如上图所示，定义参数 $n$ （一般取 $n = 12$ ），如果这16个点中有连续的 $n$ 个点都和 $P$ “不同”，那么 $P$ 就是一个特征点；
实现时，高效地排除特征点的方式是，只检查1、5、9、13号像素和 $P$ 比较，如果 $P$ 是一个特征点，则上述4个像素点中至少有3个和 $P$ “不同”，如果不满足则直接排除。