RANSAC的改进(1): 渐进一致采样 PROSAC(PROgressive SAmple Consensus)

最新推荐文章于 2024-09-10 12:53:06 发布

Rotating_Sky

最新推荐文章于 2024-09-10 12:53:06 发布

阅读量1.1w

点赞数 16

分类专栏：机器视觉文章标签： RANSAC的改进

机器视觉专栏收录该内容

1 篇文章

订阅专栏

PROSAC是对RANSAC采样的一种优化，它从最相似的数据点开始采样，提高效率。算法包括生长函数确定采样集大小和基于非随机性和极大性的停止策略。实验表明，PROSAC在图像匹配等任务中能有效节省运算量并提升性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

方法简介

渐进一致采样法¹ (PROSAC) 是对经典的 RANSAC² 中采样的一种优化。相比经典的 RANSAC 方法均匀地从整个集合中采样，PROSAC 方法是从不断增大的最佳对应点集合中进行采样的。所以这种方法可以节省计算量，提高运行速度。

详细内容

1. 引入

假设： 具有更高相似性的数据点更可能是类内点（根据相似性进行排序的半随机采样不会比完全随机采样的效果更差）

1.1. 标记说明

$N$ 个数据点的集合记作 $\mathcal{U}_N$ ，根据评价函数 $q$ ， $\mathcal{U}_N$ 内数据点被降排序为：
$\textbf{u}_i,\textbf{u}_j\in{\mathcal{U}_N}:i<j\Rightarrow{q(\textbf{u}_i)\geq q(\textbf{u}_j)}$
评价最好的 $n$ 个数据点集合记作 $\mathcal{U}_n$
从数据集 $\mathcal{U}_n$ 中的采样点集合记作 $\mathcal{M}$ ，其元素个数为 $|\mathcal{M}|=m$
采样点集合的评价函数被定义为其所有元素评价函数值中最小的评价函数值：
$q(\mathcal{M})=\mathop{\min}\limits_{\textbf{u}_i\in{\mathcal{M}}}q(\textbf{u}_i)$

2. 算法

由于 PROSAC 不是从所有数据点中进行随机采样，而是需要先对数据点进行排序，然后在评价函数值最高的数据点子集中进行随机采样，这个子集被称为假设生成集，并且这个假设生成集的元素数量是不断增大的。那么现在就会面临两个问题：

假设生成集的大小如何确定？
采样过程的停止策略是什么？

2.1 生长函数和采样

生长函数是用来确定假设生成集的大小的。它既不能过分乐观地依赖评价函数的预排序作用，也不能太消极地对所有数据点都相同看待。用 $P\{\textbf{u}_i\}$ 表示 $\textbf{u}_i$ 是正确点的概率，我们对这个概率和评价函数之间的联系做一个最小的假设，即单调性假设：
$i<j\Rightarrow q(\textbf{u}_i)\geq q(\textbf{u}_j) \Rightarrow P\{\textbf{u}_i\}\geq P\{\textbf{u}_j\}$
用 $\{\mathcal{M}_i\}_{i=1}^{T_N}$ 表示 $T_N$ 次采样点集合的序列，且每次采样都是从 $N$ 个数据点中选取其中的 $m$ 个，即 $\mathcal{M}_i\in \mathcal{U}_N$ 。用 $\{\mathcal{M}_{(i)}\}_{i=1}^{T_N}$ 表示根据评价函数排序之后的序列，则有：
$i<j\Rightarrow q(\mathcal{M}_{(i)})\geq q(\mathcal{M}_{(j)})$
用 $T_n$ 表示 $\{\mathcal{M}_i\}_{i=1}^{T_N}$ 中所有元素都来源于 $\mathcal{U}_n$ 的采样点集合 $\mathcal{M}_i$ 的平均个数，则有：
$T_n=T_N\frac{\binom{n}{m}}{\binom{N}{m}}=T_N\prod_{i=0}^{m-1}\frac{n-i}{N-i}$ $\frac{T_{n+1}}{T_n}=\prod_{i=0}^{m-1}\frac{n+1-i}{N-i}\prod_{i=0}^{m-1}\frac{N-i}{n-i}=\frac{n+1}{n+1-m}$
最终它们之间的递归关系为：
$T_{n+1}=\frac{n+1}{n+1-m}T_n$
平均来说有 $T_n$ 个采样点集合只包含 $\mathcal{U}_n$ 的数据点，有 $T_{n+1}$ 个采样点集合只包含 $\mathcal{U}_{n+1}$ 的数据点。由于 $\mathcal{U}_{n+1}=\mathcal{U}_n\cup \{\textbf{u}_{n+1}\}$ ，所以就有 $T_{n+1}-T_n$ 个采样点集合包括一个数据点 $\textbf{u}_{n+1}$ 和 $m - 1$ 个来源于 $\mathcal{U}_n$ 的数据点。所以让 $n$ 从 $m$ 一直取值到 $N - 1$ ，这样就可以随机且高效地得到采样点集合 $M_{(i)}$ .
由于 $T_n$ 的值一般不是整数，我们令 $T'_m=1$ ，并且有：
$T'_{n+1}=T'_n+\lceil T_{n+1}-T_n\rceil$
其中 ceil 括号表示取大于或等于括号中值的最小整数。所以生长函数可以被定义为：
$g(t)=\min\{n:T'_n\geq t\}$
这样第 $t$ 个采样点集合 $\mathcal{M}_t$ 可以表示为：
$\mathcal{M}_t=\{\textbf{u}_{g(t)}\cup \mathcal{M}'_t\}$
其中 $\mathcal{M}'_t\subset \mathcal{U}_{g(t)-1}$ 是一个包含 $m - 1$ 个来源于 $\mathcal{U}_{g(t)-1}$ 的数据点的集合，这样参数 $T_N$ 就表示需要多少次采样，PROSAC 算法的效果会和 RANSAC 算法保持一致。

2.2 停止策略

如果集合 $\mathcal{U}_{n^*}$ 中的类内点数 $I_{n^*}$ 满足下面的条件，PROSAC 算法就停止：

非随机性—— $n^*$ 个数据点中的类内点恰好也是任意一个错误模型的类内点的概率小于 $\Psi$ (一般设为 $5\%$ )
极大性——存在一个解在 $\mathcal{U}_{n^*}$ 中有比 $I_{n^*}$ 更多的类内点的情况，并且这种情况在 $k$ 次采样后还未被发现的概率小于 $\eta_o$ (一般设为 $5\%$ )

非随机性可以防止由类外点产生的模型也和算法一致。随机类内点集合的元素个数的分布是二项分布：
$P_n^R(i)=\beta^{i-m}(1-\beta)^{n-i+m}\binom{n-m}{i-m}$
其中 $\beta$ 是与一个错误模型相对应的点不在采样点集合中的概率，并且该采样点集合包含一个类外点。（上面的公式可以这样理解：错误模型是由 $m$ 个采样点确定的，得到与该模型相对应的点有 $i\geq m$ 个【这 $i$ 个点就是错误模型认为的类内点，也就是所谓的随机类内点集合】，那么不在采样点集合 $\mathcal{M}$ 中的点有 $i - m$ 个，数据集中的一个点是这样的点的概率为 $\beta$ ，所以可以得到随机类内点集合( $\subset \mathcal{U}_n$ )的元素个数为 $i$ 的概率就是 $P_n^R(I).$ ）
最少的类内点数 $I_n^{\min}$ 可以通过下面的式子得到（也就是限制随机类内点集合元素数量较大的概率）：
$I_n^{\min}=\min \{j:\sum_{i=j}^nP_n^R(i)<\Psi\}$
在 $\mathcal{U}_{n^*}$ 中发现一个非随机的结果必须要满足：
$I_{n^*}\geq I_{n^*}^{\min}$
极大性定义了需要多少次采样才能保证解的置信度，这也是 RANSAC 算法中唯一的停止策略。从 $\mathcal{U}_n$ 中采样得到的 $m$ 个点都来自于类内点的概率为：
$P_{I_n}=\frac{\binom{I_n}{m}}{\binom{n}{m}}=\prod_{j=0}^{m-1}\frac{I_n-j}{n-j}\approx \varepsilon_n^m$
其中 $I_n$ 是 $\mathcal{U}_n$ 中类内点的数量， $\varepsilon_n=I_n/n$ 表示类内点数的比例。那么 $k$ 次采样也没有一次采样都是类内点的概率为（ $g(k)\leq n$ ）：
$\eta=(1-P_{I_n})^k$
所以在给定概率阈值 $\eta_o$ 的后，采样次数需要满足下面的条件：
$k_{n^*}(\eta_o)\geq \log(\eta_o)/\log(1-P_{I_{n^*}})$
最终 $n^*$ 的大小是在满足 $I_{n^*}\geq I_{n^*}^{\min}$ 的条件下最小化 $k_{n^*}(\eta_o)$ 得到的。