博客地址: https://mzwang.top/
论文题目
Approximate Nearest Neighbor Search on High Dimensional Data — Experiments, Analyses, and Improvement
相关信息
作者与单位
Wen Li(Wen.Li@uts.edu.au); Nanjing Audit University; University of Technology Sydney;
Ying Zhang(Ying.Zhang@uts.edu.au); University of Technology Sydney;
Yifang Sun(yifangs@cse.unsw.edu.au); The University of New South Wales;
Wei Wang(weiw@cse.unsw.edu.au); The University of New South Wales;
Mingjie Li(Mingjie.Li@student.uts.edu.au); University of Technology Sydney;
Wenjie Zhang(zhangw@cse.unsw.edu.au); The University of New South Wales
Xuemin Lin(lxue@cse.unsw.edu.au); The University of New South Wales
出处与时间
Transactions on Knowledge and Data Engineering(2019数据库/数据挖掘/内容检索A类期刊); 2019
作者拟解决的主要问题
尽管目前已有很多近似最近邻算法,但是它们的性能没有得到全面的评估和分析。本文对各类近似最近邻算法进行了一个全面的评估,这样做的目的有以下三点:
- 各个领域的算法和数据集可能会"并行提出"。某一领域的解决方案可能已在另一领域中存在,而不必重复开发。而且,不同领域的算法很少能放在一起比较的。
- 忽略了评估标准和设置。一个近似最近邻算法可从各个角度来评估。比如,搜索时间、搜索质量、索引尺寸、可扩展性(关于数据集的规模和维数)、鲁棒性(数据集、查询负载和参数设置)、可更新性,调参工作量等。
- 现存结果的差异。同一个算法不同的实施结果差别很大,我们需要一个一致性的比较结果。
而且,通过实验和分析,本文提出了一种新的基于近邻图的近似最近邻搜索算法——DPG。该方法在构建k近邻图时同时考虑了数据点的距离和数据点的分布,这不同于之前的NN-Descent和Wang提出的方法。
论文主要研究内容
- 对现存一些主要的近似最近邻算法做一个全面的评估。
- 分析造成各种算法在不同情况下的优劣的原因。
- 构建一个更有效的基于近邻图的近似最近邻算法。
论文使用的方法
动机案例
近邻图的构建一般只考虑数据点与它的邻居点的距离。但是,本文不仅考虑这一点,它还考虑邻居点的分布,为什么要这样呢?请看图1。
图1中, a 3 a_3 a3 和 a 4 a_4 a4 是 p p p 的最近邻,在2-NN图中,如果查询点为 q q q ,搜索执行到 p p p 时是无法继续收敛到 q q q 的最近邻点 b b b 的。 a 1 a_1 a1 , a 2 a_2 a2 , a 3 a_3 a3 , a 4 a_4 a4 之间离得很近,可以认为它们处于同一个集簇,这个时候 a 3 a_3 a3 和 a 4 a_4 a4 都在 p p p 的邻居列表中其实作用不大。本文在连边时不仅考虑距离的远近,而且还考虑方向的多样性,从而构建一个多样化近邻图(Diversified Proximity Graph, DPG)。在图1中,如果 p p p 的邻居是 a 3 a_3 a3 和

本文全面评估了近似最近邻算法,分析了算法在不同情况下的表现,并提出了一种基于近邻图的新算法DPG,该算法在构建过程中同时考虑了数据点的距离和分布,以提高搜索效率。
最低0.47元/天 解锁文章
2080

被折叠的 条评论
为什么被折叠?



