NN-Descent构建K近邻图——论文超详细注解

最新推荐文章于 2024-07-07 17:26:09 发布

原创

最新推荐文章于 2024-07-07 17:26:09 发布 · 1.2w 阅读

32 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

提出了一种名为NN-Descent的K近邻图构建方法，适用于任意相似性度量，具有可扩展性、节省空间、快速精确及易实施的特点。通过迭代改进随机初始K近邻图，最终构建高质量近似K近邻图。

个人博客：www.mzwang.top

论文题目

Efficient K-Nearest Neighbor Graph Construction for Generic Similarity Measures

作者拟解决的主要问题

K近邻图的构建在很多基于Web的应用上是一个重要的操作，比如协同过滤（基于用户的邻居作推荐）、相似性搜索等。一个有效地构建方法将使K近邻图的应用更加广泛。

暴力构建K近邻图的时间复杂度为 $O(n^2)$ ，为了能更高效的构建K近邻图，现存的工作扩展性都不太好，而且一般都特定于具体的相似性度量。

有效的K近邻图构建仍然是一个开放的问题，解决该问题的已知方案中没有一个是通用、有效和可扩展的。因此，本文提出了NN-Descent方法，该方法具有以下优点：

通用。适用于任意的相似性度量准则。
可扩展。随着数据集尺寸的增加，Recall仅有很小的下降。由于对每一个数据点的局部信息进行操作，因此适用于分布式计算环境（MapReduce）.
节省空间。整个构建过程仅涉及到一种数据结构——近邻图。
快速、精确。百分之几的相似性比较便可实现90%以上的召回率。
容易实施。主要代码不超过200行（C++）。

论文主要研究内容

如何有效地构建一个K近邻图，具体如下：

适用任意相似性度量的K近邻图构建方法。
在较短的时间内快速构建K近邻图的方法。
构建一个在其上能快速、精确执行搜索的K近邻图。
适用于MapReduce框架的K近邻图构建方案。

论文使用的方法

抽象描述注解

$V$ 表示数据集，数据集尺寸为 $N = ∣ V ∣$ ，相似性度量 $σ\sigma$ ： $\times V \rightarrow R$ 。 $∀v∈V\forall v \in V$ ， $B_K(v)$ 表示 $v$ 的 $K$ 个最近邻， $u∈V∣v∈BK(u)}R_K(v)= \lbrace u \in V | v \in B_K(u) \rbrace$ 表示 $v$ 的反向K个最近邻。 $B [v]$ 和 $R [v]$ 分别表示 $B_K(v)$ 和 $R_K(v)$ 的近似。 $B‾[v]=B[v]∪R[v]\overline{B}[v]=B[v] \cup R[v]$ 表示 $v$ 的一般邻居。

当在 $V$ 上的度量方式为距离度量时，即 $d$ ： $\times V \rightarrow [0,\ +\infty]$ 。 $+∞]\forall r \in [0,\ +\infty]$ ，以 $v$ 为球心的r-球定义为： $v)≤r}B_r(v)=\lbrace u \in V | d(u, \ v) \leq r\rbrace$ 。

如果 $∃c\exists c$ 满足：
$|B_{2r}(v)| \leq c|B_{r}(v)|, \ \forall v \in V \tag{1}$
则称度量空间V增长受限， $c$ 是增长常量。

基础算法注解

基本思想：邻居的邻居更可能是邻居。

理论推导

我们可以从 $V$ 中每一个点的现有的近似K近邻出发，通过探索该点邻居的邻居（在当前近似K近邻中）而不断完善该点的K近邻。换句话说，可从粗略的K近邻图出发通过改进而不断完善它。对这一观点的量化表达如下：

让 $K=c^3$ （后面公式推导要用到， $K$ 取此值是方便推导），假定已有的近似K近邻图（可以随机给每个点选邻居构建，也可通过其它数据结构辅助构建，如哈希，树等）为 $B$ 。 $∀v∈V\forall v \in V$ ， $B′[v]=⋃v′∈B[v]B[v′]B^\prime[v]=\bigcup _{v^\prime \in B[v]} B[v^\prime]$ 表示 $v$ 所有邻居的邻居集合，它也是在完善 $v$ 的K近邻时的候选点集。当B的精度比较高时（迭代完善了一定次数或通过某种更好的方式初始化B），高到什么程度呢？就是给定一个固定的半径 $r$ ，对 $∀v∈V\forall v \in V$ ， $B [v]$ 包含的K个邻居均匀地分布在 $B_r(v)$ 中。这样的话，当各事件相互独立且 $K<< |B_{r/2}(v)|$ 时， $B′[v]B^\prime [v]$ 很可能包含在 $B_{r/2}(v)$ 中的K个邻居。换句话说，对 $∀v∈V\forall v \in V$ ，通过探索 $B′[v]B^\prime [v]$ 来使 $v$ 到它的近似K近邻的距离减半。

对 $B_{r/2}(v)$ 中的一点 $u$ ，要从 $B′[v]B^\prime[v]$ 里面找到，则至少存在一点 $v′v^\prime$ ，使得 $v′∈B[v]v^\prime \in B[v]$

最低0.47元/天解锁文章

11 条评论

Lostgreen 2024.10.12
最后的概率我感觉也是接近0吧，，，前面明明假设了k<<Br/2(v)

霜威 2023.01.04
你好博主，我看GitHub上面Kgraph和PyNNDescent都实现了对这篇论文的复现，分别是C++版和Python版，二者有什么不同吗？（Ann-benchmark网站上提供了这两个算法的召回率，差别挺大的）
- 霜威回复程序员王同学 2023.01.04
  感谢学长回复，私信你了麻烦看下
- 程序员王同学回复霜威 2023.01.04
  你好，PyNNDescent的算法部分应该也是C/C++实现的，据我所知，两者性能差异应该主要是代码实现的差异，Kgraph是原作者的实现，比较早了，应该差些

Corey_An 2022.10.13
这个证明不能算是严谨的证明吧。比如第一个不等式应该有假设前提，即节点在那个半径范围中是均匀分布的。但是现实中向量在空间中的分布从密度上来说大部分都是不均匀的。
- 程序员王同学回复Corey_An 2022.11.26
  +1

西行的五弟子 2021.11.13
你好博主，我想请问一下这篇文章主要讲了怎么高效的构建KNN graph，但是好像没有提到相关使用的KNN search方法，但是代码里面也有search的调用，请问一下KGraph是根据已构建的KNN graph索引使用了什么KNN search方法？如理解有误，请谅解
- 程序员王同学回复西行的五弟子 2021.11.18
  KGraph使用的KNN search方法就是传统的爬山算法（Hill Climbing ）改进版，搜索的时候维持的是一个候选点集合，而不是单个点